Abbyy 优秀的阅读器,如适用于 Ubuntu 13.04 的应用程序

Fai*_*lam 5 conversion files ocr

我有很多图像,我想要做的是扫描这些图像并在以后可以编辑的 ms word 文件中获取输出。对于 Windows,我有 Abbyy 优秀的阅读器。但我不想回到 Windows。请告诉我是否有任何应用程序可以为我做同样的事情。请帮助我。

Mit*_*tch 1

您可以使用 Abbyy OCR。

\n\n
\n

适用于 Linux 的 ABBYY FineReader Engine CLI 是一款即用型 CLI 工具,基于 ABBYY\xe2\x80\x99 先进的光学字符识别 (OCR) 技术。\n 该工具可在 Linux 系统上自动执行 OCR 和文档转换。

\n
\n\n

欲了解更多信息并下载,请访问他们的网站

\n\n

来源:Ocr4Linux

\n


小智 1

首先,除了 Abbyy 之外,这里还有一些 OCR 工具,它们有 SDK,可以在 Linux 上使用。但请注意,并非所有这些都支持 MS Word 输出:

  • Tesseract - 仅文本输出
  • Ocrad - 仅文本输出
  • GOCR - 仅文本输出
  • CuneiForm - RTF 输出
  • OmniPage - Google 文档和 PDF 输出

这里有一篇文章(来自 2007 年,但可能仍然相关)对前三个引擎的准确性和速度进行基准测试:http://www.mathstat.dal.ca/~selinger/ocr-test/

顺便说一句,包括 Abbyy 在内的所有引擎都最适合非结构化文本 - 换句话说,不遵循规则结构的图像。如果您正在处理的“图像”具有标准布局,例如客户填写的表格(其中字段始终位于同一位置)、各种卡片(例如名片、身份证)等,则有专门的解决方案它可以仅检测和 OCR 特定的文本字段,“清除”图像“噪声”,并以结构化方式输出文本(例如,姓名 = John Smith,ID 号 = 123456)。

如果你的图像是“模板”,并且你需要一个可以输出结构化文本的 OCR,那么实际上 Linux 解决方案很少(据我所知)。这是我熟悉的两种解决方案:

  • CSSN OCR ( http://www.card-reader.com )。专门处理卡类文档,如身份证、驾照、医疗卡、银行支票、信用卡等。使用 WINE 在 Linux 上运行。
  • ARH ( http://www.arhungary.hu )。能够读取旅行证件、护照、签证和身份证。

HTH,达纳