光学字符识别软件推荐?

Tim*_*Tim 15 software-recommendation

我看到一些电子书/论文显然是从他们的纸质版本扫描而来的,但电子书/论文中的文字可以惊人地复制出来。我想直接扫描的版本肯定已经被一些光学字符识别软件处理过。

所以我想知道有哪些推荐的光学字符识别软件?特别是那些适用于 Ubuntu 或免费的?如果那些用于 Windows 的要好得多,也请告诉我。

我对那些可以接受扫描的 pdf 文件作为输入并仍然生成另一个看起来与输入文件相同但其文本可复制的 pdf 文件作为输出的 OCR 特别感兴趣。

感谢致敬!

每个答案请限制一个软件

Mar*_*ppi 10

正方体 OCR 安装 Tesseract OCR

最初的引擎是由 HP 和 IBM 在 80 年代后期开发的,但它已被证明是我使用过的最好的 Ocular Recognition 软件之一。它最近对引擎进行了多次更新,并已成为市场上最全面的 OCR 工具之一。与大多数其他 OCR 工具(文本匹配的 90% 以上)相比,它可以轻松地将标准文档字体转换为文本。

下面是一个例子:

tesseract ScannedDocument.png out
Run Code Online (Sandbox Code Playgroud)

将产生一个名为 out.txt 的文件


Jan*_*anC 8

另一个应该能够做到这一点的项目是 gscan2pdf

sudo apt-get install gscan2pdf
Run Code Online (Sandbox Code Playgroud)

该项目还可以使用 Tesseract,以及其他开源 OCR 工具。