扫描 PDF 怎么转 Word？离线 OCR 输出可编辑-软领Claw龙虾部署大师-有用科技官网

「PDF OCR 提取」是「龙虾部署大师」技能市场中的文字识别技能：它使用 EasyOCR 把扫描版或图片型 PDF 离线识别成可编辑的 Word 文档，也可输出纯文本；过程中会按页裁切页眉页脚、保留无文本的图像页和封面页，并能对过大的 DOCX 压缩嵌入图片，方便交付。

技能效果

处理中英混排扫描合同时，它讲清了OCR识别、保留图片页、再转成格式完整Word的整个流程。

PDF OCR提取技能对话示例：中英扫描合同转Word流程

扫描件里的文字，为什么不好用

纸质资料扫描成 PDF 后，文字其实是"图片"，无法复制、检索或编辑。想把内容整理成 Word，常见三个麻烦：一是手工逐页敲字，量一大就成了重活；二是中英文混排的文件，普通工具识别不全或排版错乱；三是出于保密考虑，合同、档案这类材料不便上传到云端 OCR 服务。结果就是大量内容锁在扫描件里，用不起来。

这个技能能帮你做什么

它的核心是把图片型内容还原成可编辑文字，且全程在本地完成。识别上，它对扫描版或图片型 PDF 做离线 OCR；输出上，它生成可编辑的 DOCX，必要时也能输出纯文本结果；版面上，它按页面类型裁切页眉页脚、保留图像页面，对封面页、无文本图页这类识别效果有限的页面会保留原图供人工复核；交付上，当 OCR 后的 Word 文件因嵌入图片过大时，它可以压缩图片降低体积。它支持中英文混排识别。

用前须知

该技能无需 API Key，完全本地运行。需要安装 PyMuPDF、python-docx、Pillow、EasyOCR、NumPy；首次运行会下载 OCR 模型，之后即可离线使用。运行前需确认 PDF 路径、输出目录和 OCR 语言。

怎么用它

用法是把待识别的 PDF 和对结果的要求用自然语言交给它。例如可以这样对它说：

可以这样对它说

"这份扫描版合同转成 Word，中文和英文都识别，图片页也保留。"
"把这个图片型 PDF 跑 OCR，结果另存为可编辑文档，页码和标题别丢。"
"这本英文教材扫描件只识别英文，输出纯文本并保留章节层级。"

它适合这些场景：纸质资料扫描成 PDF 后、需要提取文字整理为 Word；中英文混排文件需要离线识别、避免上传到云端；图片页、封面页或图表页识别效果有限、需要保留原图供人工复核；批量 OCR 后生成的 Word 文件过大、需要压缩图片降低体积。它适合处理扫描合同、教材、档案、论文复印件和图片型 PDF 的行政、法务、教育、研究与档案整理人员。