在过去的3个月里,我一直在努力训练Tesseract
通过识别我已经拥有的图像集合,由于缺乏
适当的文档,而且非常高的复杂性我开始
放弃Tesseract作为一个解.
我正在寻找一种替代方案,这
对于训练来说是相对无痛的,我不打算在这里重新发现轮子.
如果没有任何免费的话,我猜付费的解决方案就
必须要做(没有200美元以上)
根据您的评论,您只需要扫描相对少量的文档,几乎100%的准确率,您的预算约为200美元
嗯,答案很简单.您不需要任何编程解决方案.只需购买优质商用OCR产品,即ABBYY FineReader(免责声明:我为ABBYY工作).它在不同的地区有不同的价格,但我想这是在你的预算的某个地方.
商用台式机OCR产品将为您提供几乎100%的典型语言准确度.他们还有方便的手动验证工具来修复所有剩余的错误.通常它们支持各种各样的现代字体,但如果你的字体不是很简单,它们确实有字体训练实用程序.
我认为这是最适合您的解决方案.
更新:Linux平台.不幸的是,对于Linux,几乎没有高质量的OCR产品可供选择.我所知道的唯一一个来自ABBYY:http://ocr4linux.com/en:start但它没有UI,验证和字体培训.但至少你可以尝试一下,看看它是否会给你足够好的准确性,这可能恰好就是这种情况.
小智 5
经过1个月的OCR A扩展字体测试,我已经培训了tesseract 2.04。
它的效果非常好,在显示14号字体时显示出90精度以上。
我建议不要放弃tesseract。
请您能解释您的问题的以下几点。