如何用 AI 把扫描件转成 Word-软领Claw龙虾部署大师-有用科技官网

「扫描文档转换」是「龙虾部署大师」技能市场中的文档格式转换技能：作用是把扫描 PDF、拍照页、截图页或图片型文档，转换为 TXT、可编辑 PDF 或 DOCX。它通过当前目录的 run.py 统一入口执行，默认 auto-convert 会按输出后缀自动选择 OCR 文本、上传转换或 PDF 转 Word 的流程，并稳妥处理含中文、空格和括号的文件路径。

技能效果

把中英混排的扫描文档转成 Word 时，它讲清了 OCR 识别、保留版式与图片页、输出可编辑文档的整个流程。

扫描文档转换技能对话示例：中英扫描件转可编辑Word流程

扫描件和拍照页，为什么改不动

合同、收据、表格常以扫描 PDF 或手机拍照的形式存在，它们本质是图片，里面的文字不能选中、不能复制、更不能编辑。要改一处条款、抽一笔金额、做一次检索，往往只能对着原件重新录入，既慢又容易出错。手工找 OCR 工具又有新麻烦：工具五花八门，输出格式各不相同，遇到中文路径、带空格或括号的文件名，命令行传参还经常出错。

这个技能能帮你转出什么

它把图片型文档变成可编辑、可检索的格式。核心能力有四块：一是把扫描 PDF、图片或截图转换为 TXT、PDF 或 DOCX 三种输出；二是通过 run.py 统一入口，按你给的输出后缀自动选择转换流程，不用你判断该走 OCR 还是 PDF 转 Word；三是支持中文、空格和括号路径，整体加引号传参，避免路径被拆断或乱码；四是在你明确要求时，也可执行 upload、convert、pdf2docx 等分步命令。它遵循低消耗的操作规则——不搜索脚本、不读源码、不拆分中文路径、不预装依赖，只有脚本明确报缺依赖时才安装并重试。

用前须知

该技能默认读取 AI agent 的身份与服务配置，可能需要可用的 auth uid/token 和 Release Base URL。它依赖 requests，PDF 处理可能需要 PyMuPDF；这些依赖只在脚本明确报缺时才安装并重试，平时不预装。

怎么用它

用法是把要转的文件和想要的输出格式用自然语言说清楚，路径有中文或空格也直接交给它。例如可以这样对它说：

可以这样对它说

"这份扫描版合同转成可编辑 DOCX，尽量保留原排版和页眉页码。"
"手机拍的这几页收据识别成 TXT，中文、日期、金额和抬头别漏。"
"这个图片型 PDF 做成可搜索 PDF，输出文件名保持原来的中文路径。"

它适合这些场景：有扫描版合同、表格或拍照页面，需要转为可编辑的 Word；图片型 PDF 需要直接生成可检索 PDF 或 OCR 纯文本；文件路径包含中文或空格，希望稳定传参而不手动转码；只在出现明确缺依赖报错时才安装相应库后重试。

大家常问

可搜索 PDF 是什么意思？和扫描型 PDF 有什么区别？

扫描型 PDF 本质上是一叠图片打包成的 PDF，每页是整张图像，文字以像素形式存在，无法选中或搜索。可搜索 PDF 在扫描图像之上叠加一层不可见的透明文字层，肉眼看到的仍是原图，但计算机可通过这层隐藏文字实现全文搜索、复制和内容提取。区别就在于是否带了这层"字幕"。

可搜索 PDF 与扫描型 PDF 区别——ClawBot 对话示例

OCR 识别失败或准确率偏低，通常是由哪些因素造成的？

多数问题不在识别模型，而在前置环节：扫描分辨率低于 200 DPI 笔画断裂、拍照倾斜和透视畸变破坏字符形态、光照不均与背景透墨干扰二值化、印章压字与折痕形成噪声。版面分析阶段一旦区域划分或阅读顺序判错，后续单字再准也会输出错乱。错误在预处理阶段就已不可逆地丢失信息，会被逐级放大。

OCR 识别失败原因——ClawBot 对话示例

扫描件识别成 Word 后排版经常变乱，这是为什么？

排版散架的核心原因在版面分析：系统要先判定每块区域是标题、正文、表格还是页眉页脚，复杂版面下分块或阅读顺序一旦判错，整页段落顺序就乱了。再加上 OCR 经常把行内换行误判成段落结束、表格无框线时退化成无格式文本，以及 Word 自己的文本流引擎不认 OCR 输出的绝对坐标会强制重排，最终视觉效果就和原稿对不上。

扫描件转 Word 排版乱原因——ClawBot 对话示例