我使用tesseract 3.0.0,我遇到了以下问题:
当有一些东西太小而tesseract无法识别它似乎与其他碎片合并.结果没有返回任何相关内容.
下图显示了3个案例.只有带虚线的矩形传递给tesseract.在矩形上是结果(V over T表示新行).
最后一个案例是问题一个.在这种情况下,有什么方法可以改善tesseract吗?

据我所知,Tesseract还没有适当的图像分割(或文档分析,因为它在纪念OCR应用程序中被称为.)通常,在OCR完成之前,图像被分割成包含文本,图片,条形码的单独区域,线条等.然后,您只在文本区域应用OCR,并且不会遇到您刚才描述的问题.
早期版本的Tesseract根本没有这个功能,当你在较大的图像切割的文本的小片段上使用时,Tesseract应该仅用作线识别器,或者所谓的场级识别器.
我没有完全遵循3.0中引入的内容,可能它已经部分存在,但显然它没有按预期工作,正如您刚刚发现的那样.
还有另一个开源项目 - OCRopus,正如我所描述的那样完全解决了这个问题 - 首先是Document Analisys(又名Segmentation),然后只有OCR.他们的早期版本实际上是在完成分析步骤后使用Tesseract进行OCR.但后来他们推出了自己的OCR(仍然不是很好),并将Tesseract插件支持放在优先级列表中.
以下是您实际可以解决问题的方法:
免责声明:我为ABBYY工作
| 归档时间: |
|
| 查看次数: |
3057 次 |
| 最近记录: |