如何使用 OCR 用格式化文本替换 PDF 中的文本图像

Question

如何使用 OCR 用格式化文本替换 PDF 中的文本图像

tel*_*tel 5 pdf automation ocr documents

我从其他人那里得到了很多由扫描的旧文档组成的 PDF。不幸的是，有时扫描件上的文字虽然清晰易读，但看起来颗粒状且难以阅读。

到目前为止，我能够做的是使用 OCR 将文本提取到 Word 文档中。然而，由于这些旧文档通常有插图和复杂的格式，我真正想做的就是删除旧的颗粒状文本并用计算机生成的字体替换它。换句话说，我想最大程度地保留 PDF 及其页面的格式，同时通过将其替换为“新罗马”来“清理”文本。

几天来，我一直在网上寻找一种简单、可自动化的方法来执行此类清理，但到目前为止我还没有找到任何东西。似乎应该有一种方法可以做到这一点，它似乎并不那么复杂，但也许我忽略了这个问题的某些方面，将其置于 OCR 目前可行的范围之外。

有什么建议？

Answer 1

小智 0

取决于您的具体情况（使用的字体、图表、需要多少清理...），但我使用 FineReader Professional Edition 获得了良好的结果...扫描最常见的图像格式（scan、tiff、jpg 等...）并且可以转换为html或word等...

它不是免费的，但你并没有说你正在寻找它。我之前做过很多 OCR 工作，它的 OCR 工作非常出色，错误率很低。<<<--- 我不知道今天的情况，但是 5 年前，当我第一次得到这个时，我尝试了一些其他 OCR 软件包，文本识别的准确性普遍“糟糕”......尽管他们会宣传它（正确）为 90-95-98%。问题是，即使达到 99%，您也会查看多个单词来纠正/一页文本。这对于我的容忍度来说太高了。

我觉得原始零售价格有点贵（但我通常喜欢免费，购买的软件最好值得；我精通“gninux-ese”），但他们有升级优惠（或我购买时提供）其他软件的价格约为零售价的 50%，这也与升级价格有关。不过，当它大约是版本 6 或 7 时，当我有需要类似的新项目时，我确实购买了它 - 我购买了当时版本的升级版。我上次购买的是9.0。

我唯一的[晦涩]问题是它无法识别 Unicode 并且不生成 unicode 文件。他们目前支持 186 种（从网站上读取）语言（AFAIK，所有语言都包含在 Prof. Ver. 中），但它以区域编码字符集或“代码页”（ibm-cp850、ms-cp1250、 iso-8859-1 等...）而不是 UTF-8——这是我的偏好。我正在扫描混合字母文件，最终我将用 UTF-8 对其进行编辑。

他们的软件无需培训即可完成出色的工作。它可以被训练来识别用户特定的字母，尽管我没有发现这个过程像我希望的那样方便（但对于我所做的（或正在做的）大部分事情来说确实不需要它。

在我拥有的版本（9）中，它还能够从屏幕捕获中读取内容，这对于不支持复制/粘贴的程序来说有时很方便。

他们现在似乎也有一个先试后买的选项：网站：finereader.abbyy.com（专业产品@http: //finereader.abbyy.com/professional）。

归档时间：	15 年，5 月前
查看次数：	3310 次
最近记录：	11 年，4 月前