任何以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR 的工具?

Bod*_*den 10 pdf document-management ocr

首选开源,但不是必需的。

我有 Adob​​e Acrobat 8​​,并且非常喜欢 OCR 功能,它基本上可以在扫描文档的顶部放置一个不可见的 OCR 文本层。因此,您在屏幕上看到的是原始扫描文档,但结果是可搜索的。

我正在寻找的是一种自动化这个过程的方法。我目前有一些用于处理和存档扫描文件的脚本,并且正在寻找可以直接插入到此批处理过程中的一些脚本,以类似于我可以使用 Acrobat 执行的方式执行 OCR。

欢迎大家提出建议,谢谢!

xeo*_*eon 8

我在公司文档归档项目中实现了这一点。扫描文件为 tif 文件(单页)。然后使用楔形文字创建单个 tif 的 hocr 文件。然后使用hocr2pdf输出 PDF 文件。如果有多个扫描页面,我使用 gs 将 PDF 合并为一个 PDF 文档。效果非常好,OCR 足以满足我们的需求,并且可以在任何 PDF 查看器中进行搜索。