许多 PDF 文件的批处理 OCR(尚未 OCR)?

Erb*_*Erb 10 pdf ocr desktop-search

我使用 Google 桌面搜索(我使用的是 Vista),但我的存档文件夹中并未识别出所有的 PDF 文件。这是正常的,因为“包含扫描图像的 PDF 文件”未编入索引( http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651 )

所以我想对我的许多尚未 OCR 的 PDF 文件进行 OCR。 我的目标:我给程序一个文件夹,它在子文件夹中单独搜索需要转换为 PDF-OCRed 文件的 PDF 文件。

注意:过去,如果 PDF 文件受密码保护,我会使用另一批(付费)工具删除密码:verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

任何(不是太贵)的想法?

我已经尝试过:当时 xp 上的 Finereader 6 pro,但没有包含批处理器... Paperfile paperfile.net 使用 Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF转文本,不是PDF转PDF!还有另一个项目http://code.google.com/p/ocropus/

提前致谢 ;)

chr*_*own 6

tl;博士?从 Nuance PowerPDF Advanced 开始。

我在 2014 年 12 月评估了 OCR 软件,为一个大项目做准备 - 在数百万分批完成的英语页面上进行 OCR。如果你愿意花几百美元,你有很多选择;如果您只需要转换几百页,试用版可以让您通过。

许多软件包想要加载所有输入文件,进行 OCR 并将混乱合并为一个输出。恕我直言,这是完全错误的,我不知道谁会想要那个。我正在寻找真正的批处理:每个输入文件一个输出文件,无人值守操作,不要停止任何事情,最后给我一个详细的报告。剧透警报:我没有找到。

包裹按字母顺序排列。下面显示的价格是列表,但折扣比比皆是。对我对准确性的评论持保留态度;您的输入将与我的输入不同,因此您的里程肯定会有所不同。

ABBYY Finereader 12 企业版:400 美元。批处理功能称为“任务管理器”,位于“工具”菜单上。它将处理文件夹中的文件,包括子文件夹;它会很高兴为每个输入文件创建一个单独的输出文件。它似乎无法保留输入文件夹层次结构;所有输出文件都转到同一个输出文件夹。在我的测试中准确度很高,但仍然是我在这里列出的软件包中最低的。

Adobe Acrobat XI:300 美元。批处理功能称为“文本识别/在多个文件中”,可以通过单击工具(第三个工具栏,主屏幕的右上角)找到它。处理子文件夹,每个输入一个输出。如果找到受密码保护的文件,则停止并发出提示。默认不保留输入目录树;可以通过将输出写入与输入相同的文件夹来实现。在我的测试中,准确性非常好。

Nuance OmniPage Ultimate(又名 v19):500 美元。批处理功能称为“DocuDirect”,它是软件包附带的一个单独程序。它将处理文件夹和子文件夹;如果你选择的特征恰到好处,它会在输出区域保留输入目录树。每个输入一个输出。停止并要求受保护文件的密码。似乎很好地利用了多核处理器来并行运行任务。准确性非常。但批处理器的稳定性较差;一个模糊的文档会阻止它的轨道,永远不会恢复,轻松地使一个批次脱轨。

Nuance PowerPDF Advanced v1.1(OmniPage Ultimate 的后续版本):150 美元。批处理功能称为“批处理转换器”,可以从主程序的“高级处理”选项卡下访问它。它将处理文件夹和子文件夹,在输出中保留输入结构。每个输入一个输出。将使用多个内核,但不会主动使用;这意味着我无法让它饱和多核主机。准确性非常,与 OmniPage 一样好或更好。错误或模糊的文件不会导致它挂起。批处理器将 ( shock ) 纯文本日志文件写入输出目录。

ReadIris Corporate 14:600 美元。批处理功能由“批处理 OCR”项目调用,该项目通过单击主屏幕上的“来自文件”按钮显示。它将处理文件夹和子文件夹,每个输入一个输出,默认情况下输出目录结构与输入目录结构匹配。停止并要求用户对无效文件进行输入;显然是通过对图像进行 OCR 处理而无需进一步投诉所有受保护的文档。准确性非常好,与 Acrobat 相当。

在我的台式机(只有双核)上,使用我选择的输入,每个包至少需要 3 秒来处理一个页面;有些拿了更多。可能能够在具有更多内核的机器上降低它。

陷阱比比皆是,一定要为它们做好计划:无效的 PDF(一些包停止)、受密码保护的 PDF(一些包停止,其他人无论如何都会转换!)和旋转页面(横向而不是纵向)。如果您希望批处理一直运行到完成,您必须非常非常小心地为这些包准备输入区域。查看 GhostScript 包的打印到 PDF 功能,以了解从 PDF 中删除保护的方法。

运行大批量可能会导致内存耗尽和挂起问题,即使它不应该(啊——可能是内存泄漏)。如果你正在做任何类型的自动化,一个大问题是事后发现真正发生的事情 - 哪些文档无法处理,哪些在处理过程中失败等等。就像人们从未听说过的桌面软件一样“日志文件”。

对于这些大众市场套餐,最终获得支持,即使是作为付费客户,也非常困难。例如,我向一位受人尊敬的客户支持代表抱怨一个包裹(将保持无名)挂在一些大输入上。我等了 36 个小时才放弃:)。他们甜蜜地建议将批量大小限制为 300 个文档。这对我来说是完全不能接受的,但是嘿,它很快就关闭了支持票,对吧?这才是最重要的,对吧?叹。

HTH


pel*_*lms 3

Adobe Acrobat 将处理 PDF 文件夹,并且与大多数 Adob​​e 产品一样,有30 天的试用期
该功能位于“文档”菜单中:

文档 > OCR 文本识别 > 使用 OCR 识别多个文件中的文本

您可以从其中添加文件夹。

在 Acrobat X 中,该功能可用如下:

工具 > 识别文本 > 在多个文件中