OCR的理想字体是什么?

Chr*_*oyd 28 ocr fonts tesseract

有没有人有OCR不同字体的经验?我正在生成一个ID,然后尝试用tesseract扫描它.目前我只是T&E'n不同的字体,但这似乎效率很低.我尝试过OCR*系列字体,以及Arial和Georgia等其他各种字体.tesseract往往与OCR*字体混淆.

是否有专门为tesseract设计的字体,或任何适合它的系统字体?

Pau*_*ier 17

好的,谷歌搜索出现了这个特定的OCR字体: OCR字体

看起来它是1973年采用的标准.


Gaw*_*win 15

尝试了很多不同的字体和OCR引擎后,我倾向于使用Consolas获得最佳效果.它是一种类似OCR-A 的等宽字体,但更容易为人类阅读.Consolas包含在几个Microsoft产品中.

还有一个开源字体Inconsolata,受到 Consolas的影响.Inconsolata是Consolas的良好替代品,特别是考虑到许可细节.

在我的测试中,Calibri字体中的数字和空格并不总是被正确识别.OCR-A给出了很多读数错误.我没有尝试过MIRC,因为它对大多数人来说都不容易阅读.

注意:tesseract在可靠之前需要进行大量的测试和微调.在我们的案例中,我们切换到商业许可的OCR引擎(ABBYY),特别是因为可靠性非常重要,我们需要支持多种(欧洲)语言.

更新时间: 2017年1月31日 - 由于潜在的版权问题,将" 基于Consolas " 更改为" 受Consolas影响 ".

  • Inconsolata肯定不是基于Consolas.如果是,那么它将是Consolas的衍生作品,不能在免费许可下发布.维基百科页面使用"受影响"一词,在这种情况下,这是一个更好的属性.只是指出这一点,因为理解版权很难,并且不使用错误的术语并造成更多的混淆是有用的. (2认同)

ben*_*ith 5

我可能会使用与银行在支票底部的路由号码相同的字体:

http://morovia.com/font/micr.asp

它经过专门设计,具有明确的机器可读性。

  • MICR 专为利用磁性技术而不是光学技术进行理想读取而设计。虽然它还不错,但对于 OCR 来说还远远不够理想。 (3认同)
  • Tesseract-OCR 并未经过开箱即用的训练来使用 MICR 字体,尽管这是可以做到的...... (3认同)

小智 5

我发现Calibri对我来说是最好的.我们每天在自动化系统中使用OCR软件,在测试了几十种字体(包括一些特定于OCR的字体)后,Calibri始终是最好的.

祝好运.

  • [Calibri 的维基百科页面](https://en.wikipedia.org/wiki/Calibri) 指出,在 Calibri 中,小写 L (l) 和大写 I “实际上无法区分”,如果您在非散文文本,例如计算机代码、base64 打印输出等。 (2认同)