Erb*_*Erb 10 pdf ocr desktop-search
我使用 Google 桌面搜索(我使用的是 Vista),但我的存档文件夹中并未识别出所有的 PDF 文件。这是正常的,因为“包含扫描图像的 PDF 文件”未编入索引( http://desktop.google.com/support/bin/answer.py?hl=zh_CN&answer=90651 )
所以我想对我的许多尚未 OCR 的 PDF 文件进行 OCR。 我的目标:我给程序一个文件夹,它在子文件夹中单独搜索需要转换为 PDF-OCRed 文件的 PDF 文件。
注意:过去,如果 PDF 文件受密码保护,我会使用另一批(付费)工具删除密码:verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/
任何(不是太贵)的想法?
我已经尝试过:当时 xp 上的 Finereader 6 pro,但没有包含批处理器... Paperfile paperfile.net 使用 Tesseract http://code.google.com/p/tesseract-ocr/。但是OCR只是PDF转文本,不是PDF转PDF!还有另一个项目http://code.google.com/p/ocropus/
提前致谢 ;)
tl;博士?从 Nuance PowerPDF Advanced 开始。
我在 2014 年 12 月评估了 OCR 软件,为一个大项目做准备 - 在数百万分批完成的英语页面上进行 OCR。如果你愿意花几百美元,你有很多选择;如果您只需要转换几百页,试用版可以让您通过。
许多软件包想要加载所有输入文件,进行 OCR 并将混乱合并为一个输出。恕我直言,这是完全错误的,我不知道谁会想要那个。我正在寻找真正的批处理:每个输入文件一个输出文件,无人值守操作,不要停止任何事情,最后给我一个详细的报告。剧透警报:我没有找到。
包裹按字母顺序排列。下面显示的价格是列表,但折扣比比皆是。对我对准确性的评论持保留态度;您的输入将与我的输入不同,因此您的里程肯定会有所不同。
ABBYY Finereader 12 企业版:400 美元。批处理功能称为“任务管理器”,位于“工具”菜单上。它将处理文件夹中的文件,包括子文件夹;它会很高兴为每个输入文件创建一个单独的输出文件。它似乎无法保留输入文件夹层次结构;所有输出文件都转到同一个输出文件夹。在我的测试中准确度很高,但仍然是我在这里列出的软件包中最低的。
Adobe Acrobat XI:300 美元。批处理功能称为“文本识别/在多个文件中”,可以通过单击工具(第三个工具栏,主屏幕的右上角)找到它。处理子文件夹,每个输入一个输出。如果找到受密码保护的文件,则停止并发出提示。默认不保留输入目录树;可以通过将输出写入与输入相同的文件夹来实现。在我的测试中,准确性非常好。
Nuance OmniPage Ultimate(又名 v19):500 美元。批处理功能称为“DocuDirect”,它是软件包附带的一个单独程序。它将处理文件夹和子文件夹;如果你选择的特征恰到好处,它会在输出区域保留输入目录树。每个输入一个输出。停止并要求受保护文件的密码。似乎很好地利用了多核处理器来并行运行任务。准确性非常好。但批处理器的稳定性较差;一个模糊的文档会阻止它的轨道,永远不会恢复,轻松地使一个批次脱轨。
Nuance PowerPDF Advanced v1.1(OmniPage Ultimate 的后续版本):150 美元。批处理功能称为“批处理转换器”,可以从主程序的“高级处理”选项卡下访问它。它将处理文件夹和子文件夹,在输出中保留输入结构。每个输入一个输出。将使用多个内核,但不会主动使用;这意味着我无法让它饱和多核主机。准确性非常好,与 OmniPage 一样好或更好。错误或模糊的文件不会导致它挂起。批处理器将 ( shock ) 纯文本日志文件写入输出目录。
ReadIris Corporate 14:600 美元。批处理功能由“批处理 OCR”项目调用,该项目通过单击主屏幕上的“来自文件”按钮显示。它将处理文件夹和子文件夹,每个输入一个输出,默认情况下输出目录结构与输入目录结构匹配。停止并要求用户对无效文件进行输入;显然是通过对图像进行 OCR 处理而无需进一步投诉所有受保护的文档。准确性非常好,与 Acrobat 相当。
在我的台式机(只有双核)上,使用我选择的输入,每个包至少需要 3 秒来处理一个页面;有些拿了更多。可能能够在具有更多内核的机器上降低它。
陷阱比比皆是,一定要为它们做好计划:无效的 PDF(一些包停止)、受密码保护的 PDF(一些包停止,其他人无论如何都会转换!)和旋转页面(横向而不是纵向)。如果您希望批处理一直运行到完成,您必须非常非常小心地为这些包准备输入区域。查看 GhostScript 包的打印到 PDF 功能,以了解从 PDF 中删除保护的方法。
运行大批量可能会导致内存耗尽和挂起问题,即使它不应该(啊——可能是内存泄漏)。如果你正在做任何类型的自动化,一个大问题是事后发现真正发生的事情 - 哪些文档无法处理,哪些在处理过程中失败等等。就像人们从未听说过的桌面软件一样“日志文件”。
对于这些大众市场套餐,最终获得支持,即使是作为付费客户,也非常困难。例如,我向一位受人尊敬的客户支持代表抱怨一个包裹(将保持无名)挂在一些大输入上。我等了 36 个小时才放弃:)。他们甜蜜地建议将批量大小限制为 300 个文档。这对我来说是完全不能接受的,但是嘿,它很快就关闭了支持票,对吧?这才是最重要的,对吧?叹。
HTH