Fai*_*lam 5 conversion files ocr
我有很多图像,我想要做的是扫描这些图像并在以后可以编辑的 ms word 文件中获取输出。对于 Windows,我有 Abbyy 优秀的阅读器。但我不想回到 Windows。请告诉我是否有任何应用程序可以为我做同样的事情。请帮助我。
小智 1
首先,除了 Abbyy 之外,这里还有一些 OCR 工具,它们有 SDK,可以在 Linux 上使用。但请注意,并非所有这些都支持 MS Word 输出:
这里有一篇文章(来自 2007 年,但可能仍然相关)对前三个引擎的准确性和速度进行基准测试:http://www.mathstat.dal.ca/~selinger/ocr-test/
顺便说一句,包括 Abbyy 在内的所有引擎都最适合非结构化文本 - 换句话说,不遵循规则结构的图像。如果您正在处理的“图像”具有标准布局,例如客户填写的表格(其中字段始终位于同一位置)、各种卡片(例如名片、身份证)等,则有专门的解决方案它可以仅检测和 OCR 特定的文本字段,“清除”图像“噪声”,并以结构化方式输出文本(例如,姓名 = John Smith,ID 号 = 123456)。
如果你的图像是“模板”,并且你需要一个可以输出结构化文本的 OCR,那么实际上 Linux 解决方案很少(据我所知)。这是我熟悉的两种解决方案:
HTH,达纳