许多 PDF 文件的批处理 OCR（尚未 OCR）？

Question

许多 PDF 文件的批处理 OCR（尚未 OCR）？

我使用 Google 桌面搜索（我使用的是 Vista），但我的存档文件夹中并未识别出所有的 PDF 文件。这是正常的，因为“包含扫描图像的 PDF 文件”未编入索引( http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651 )

所以我想对我的许多尚未 OCR 的 PDF 文件进行 OCR。 我的目标：我给程序一个文件夹，它在子文件夹中单独搜索需要转换为 PDF-OCRed 文件的 PDF 文件。

注意：过去，如果 PDF 文件受密码保护，我会使用另一批（付费）工具删除密码：verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

任何（不是太贵）的想法？

我已经尝试过：当时 xp 上的 Finereader 6 pro，但没有包含批处理器... Paperfile paperfile.net 使用 Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF转文本，不是PDF转PDF！还有另一个项目http://code.google.com/p/ocropus/

提前致谢 ;）

Answer 1

chr*_*own 6

tl;博士？从 Nuance PowerPDF Advanced 开始。

我在 2014 年 12 月评估了 OCR 软件，为一个大项目做准备 - 在数百万分批完成的英语页面上进行 OCR。如果你愿意花几百美元，你有很多选择；如果您只需要转换几百页，试用版可以让您通过。

许多软件包想要加载所有输入文件，进行 OCR 并将混乱合并为一个输出。恕我直言，这是完全错误的，我不知道谁会想要那个。我正在寻找真正的批处理：每个输入文件一个输出文件，无人值守操作，不要停止任何事情，最后给我一个详细的报告。剧透警报：我没有找到。

包裹按字母顺序排列。下面显示的价格是列表，但折扣比比皆是。对我对准确性的评论持保留态度；您的输入将与我的输入不同，因此您的里程肯定会有所不同。

ABBYY Finereader 12 企业版：400 美元。批处理功能称为“任务管理器”，位于“工具”菜单上。它将处理文件夹中的文件，包括子文件夹；它会很高兴为每个输入文件创建一个单独的输出文件。它似乎无法保留输入文件夹层次结构；所有输出文件都转到同一个输出文件夹。在我的测试中准确度很高，但仍然是我在这里列出的软件包中最低的。

Adobe Acrobat XI：300 美元。批处理功能称为“文本识别/在多个文件中”，可以通过单击工具（第三个工具栏，主屏幕的右上角）找到它。处理子文件夹，每个输入一个输出。如果找到受密码保护的文件，则停止并发出提示。默认不保留输入目录树；可以通过将输出写入与输入相同的文件夹来实现。在我的测试中，准确性非常好。

Nuance OmniPage Ultimate（又名 v19）：500 美元。批处理功能称为“DocuDirect”，它是软件包附带的一个单独程序。它将处理文件夹和子文件夹；如果你选择的特征恰到好处，它会在输出区域保留输入目录树。每个输入一个输出。停止并要求受保护文件的密码。似乎很好地利用了多核处理器来并行运行任务。准确性非常好。但批处理器的稳定性较差；一个模糊的文档会阻止它的轨道，永远不会恢复，轻松地使一个批次脱轨。

Nuance PowerPDF Advanced v1.1（OmniPage Ultimate 的后续版本）：150 美元。批处理功能称为“批处理转换器”，可以从主程序的“高级处理”选项卡下访问它。它将处理文件夹和子文件夹，在输出中保留输入结构。每个输入一个输出。将使用多个内核，但不会主动使用；这意味着我无法让它饱和多核主机。准确性非常好，与 OmniPage 一样好或更好。错误或模糊的文件不会导致它挂起。批处理器将 ( shock ) 纯文本日志文件写入输出目录。

ReadIris Corporate 14：600 美元。批处理功能由“批处理 OCR”项目调用，该项目通过单击主屏幕上的“来自文件”按钮显示。它将处理文件夹和子文件夹，每个输入一个输出，默认情况下输出目录结构与输入目录结构匹配。停止并要求用户对无效文件进行输入；显然是通过对图像进行 OCR 处理而无需进一步投诉所有受保护的文档。准确性非常好，与 Acrobat 相当。

在我的台式机（只有双核）上，使用我选择的输入，每个包至少需要 3 秒来处理一个页面；有些拿了更多。可能能够在具有更多内核的机器上降低它。

陷阱比比皆是，一定要为它们做好计划：无效的 PDF（一些包停止）、受密码保护的 PDF（一些包停止，其他人无论如何都会转换！）和旋转页面（横向而不是纵向）。如果您希望批处理一直运行到完成，您必须非常非常小心地为这些包准备输入区域。查看 GhostScript 包的打印到 PDF 功能，以了解从 PDF 中删除保护的方法。

运行大批量可能会导致内存耗尽和挂起问题，即使它不应该（啊——可能是内存泄漏）。如果你正在做任何类型的自动化，一个大问题是事后发现真正发生的事情 - 哪些文档无法处理，哪些在处理过程中失败等等。就像人们从未听说过的桌面软件一样“日志文件”。

对于这些大众市场套餐，最终获得支持，即使是作为付费客户，也非常困难。例如，我向一位受人尊敬的客户支持代表抱怨一个包裹（将保持无名）挂在一些大输入上。我等了 36 个小时才放弃:)。他们甜蜜地建议将批量大小限制为 300 个文档。这对我来说是完全不能接受的，但是嘿，它很快就关闭了支持票，对吧？这才是最重要的，对吧？叹。

HTH

Answer 2

pel*_*lms 3

Adobe Acrobat 将处理 PDF 文件夹，并且与大多数 Adobe 产品一样，有30 天的试用期。
该功能位于“文档”菜单中：

文档 > OCR 文本识别 > 使用 OCR 识别多个文件中的文本

您可以从其中添加文件夹。

在 Acrobat X 中，该功能可用如下：

工具 > 识别文本 > 在多个文件中

归档时间：	16 年前
查看次数：	38368 次
最近记录：	10 年，4 月前