任何以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR 的工具？

Question

任何以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR 的工具？

Bod*_*den 10 pdf document-management ocr

首选开源，但不是必需的。

我有 Adobe Acrobat 8，并且非常喜欢 OCR 功能，它基本上可以在扫描文档的顶部放置一个不可见的 OCR 文本层。因此，您在屏幕上看到的是原始扫描文档，但结果是可搜索的。

我正在寻找的是一种自动化这个过程的方法。我目前有一些用于处理和存档扫描文件的脚本，并且正在寻找可以直接插入到此批处理过程中的一些脚本，以类似于我可以使用 Acrobat 执行的方式执行 OCR。

欢迎大家提出建议，谢谢！

Answer 1

xeo*_*eon 8

我在公司文档归档项目中实现了这一点。扫描文件为 tif 文件（单页）。然后使用楔形文字创建单个 tif 的 hocr 文件。然后使用hocr2pdf输出 PDF 文件。如果有多个扫描页面，我使用 gs 将 PDF 合并为一个 PDF 文档。效果非常好，OCR 足以满足我们的需求，并且可以在任何 PDF 查看器中进行搜索。

归档时间：	16 年，6 月前
查看次数：	5830 次
最近记录：	10 年，10 月前