Tesseract OCR培训的替代方案?

Asa*_*saf 16 ocr tesseract

在过去的3个月里,我一直在努力训练Tesseract
通过识别我已经拥有的图像集合,由于缺乏
适当的文档,而且非常高的复杂性我开始
放弃Tesseract作为一个解.

我正在寻找一种替代方案,这
对于训练来说是相对无痛的,我不打算在这里重新发现轮子.

如果没有任何免费的话,我猜付费的解决方案就
必须要做(没有200美元以上)

Tom*_*ato 6

根据您的评论,您只需要扫描相对少量的文档,几乎100%的准确率,您的预算约为200美元

嗯,答案很简单.您不需要任何编程解决方案.只需购买优质商用OCR产品,即ABBYY FineReader(免责声明:我为ABBYY工作).它在不同的地区有不同的价格,但我想这是在你的预算的某个地方.

商用台式机OCR产品将为您提供几乎100%的典型语言准确度.他们还有方便的手动验证工具来修复所有剩余的错误.通常它们支持各种各样的现代字体,但如果你的字体不是很简单,它们确实有字体训练实用程序.

我认为这是最适合您的解决方案.

更新:Linux平台.不幸的是,对于Linux,几乎没有高质量的OCR产品可供选择.我所知道的唯一一个来自ABBYY:http://ocr4linux.com/en:start但它没有UI,验证和字体培训.但至少你可以尝试一下,看看它是否会给你足够好的准确性,这可能恰好就是这种情况.


小智 5

经过1个月的OCR A扩展字体测试,我已经培训了tesseract 2.04。
它的效果非常好,在显示14号字体时显示出90精度以上。
我建议不要放弃tesseract。
请您能解释您的问题的以下几点。

  1. 请提供一些您想要识别的图像。您知道该图像中使用的字体吗
  2. 您的高度复杂性是什么?

  • 哇。1个月的工作量和90%的准确性与为识别而设计的字体有点令人沮丧。您使用了多少张图片样本?每个图像中有多少个单词或字符? (13认同)