「扫描文档转换」是「龙虾部署大师」技能市场中的文档格式转换技能:作用是把扫描 PDF、拍照页、截图页或图片型文档,转换为 TXT、可编辑 PDF 或 DOCX。它通过当前目录的 run.py 统一入口执行,默认 auto-convert 会按输出后缀自动选择 OCR 文本、上传转换或 PDF 转 Word 的流程,并稳妥处理含中文、空格和括号的文件路径。
技能效果
把中英混排的扫描文档转成 Word 时,它讲清了 OCR 识别、保留版式与图片页、输出可编辑文档的整个流程。

扫描件和拍照页,为什么改不动
合同、收据、表格常以扫描 PDF 或手机拍照的形式存在,它们本质是图片,里面的文字不能选中、不能复制、更不能编辑。要改一处条款、抽一笔金额、做一次检索,往往只能对着原件重新录入,既慢又容易出错。手工找 OCR 工具又有新麻烦:工具五花八门,输出格式各不相同,遇到中文路径、带空格或括号的文件名,命令行传参还经常出错。
这个技能能帮你转出什么
它把图片型文档变成可编辑、可检索的格式。核心能力有四块:一是把扫描 PDF、图片或截图转换为 TXT、PDF 或 DOCX 三种输出;二是通过 run.py 统一入口,按你给的输出后缀自动选择转换流程,不用你判断该走 OCR 还是 PDF 转 Word;三是支持中文、空格和括号路径,整体加引号传参,避免路径被拆断或乱码;四是在你明确要求时,也可执行 upload、convert、pdf2docx 等分步命令。它遵循低消耗的操作规则——不搜索脚本、不读源码、不拆分中文路径、不预装依赖,只有脚本明确报缺依赖时才安装并重试。
用前须知
该技能默认读取 AI agent 的身份与服务配置,可能需要可用的 auth uid/token 和 Release Base URL。它依赖 requests,PDF 处理可能需要 PyMuPDF;这些依赖只在脚本明确报缺时才安装并重试,平时不预装。
怎么用它
用法是把要转的文件和想要的输出格式用自然语言说清楚,路径有中文或空格也直接交给它。例如可以这样对它说:
可以这样对它说
- "这份扫描版合同转成可编辑 DOCX,尽量保留原排版和页眉页码。"
- "手机拍的这几页收据识别成 TXT,中文、日期、金额和抬头别漏。"
- "这个图片型 PDF 做成可搜索 PDF,输出文件名保持原来的中文路径。"
它适合这些场景:有扫描版合同、表格或拍照页面,需要转为可编辑的 Word;图片型 PDF 需要直接生成可检索 PDF 或 OCR 纯文本;文件路径包含中文或空格,希望稳定传参而不手动转码;只在出现明确缺依赖报错时才安装相应库后重试。
注:技能的实际效果与所选用的 AI 模型能力有关,不同模型下的表现可能存在差异。

提示