将tesseract训练为一种特定字体

Vin*_*oft 6 ocr tesseract

我正在使用tesseract从屏幕刮板应用程序中获取OCR文本.使用的唯一字体是Segoe UI 8 CLEARTYPE QUALITY(见下图).此时,tesseract做得很差,混合了Z和2,0和o等等.

我试图扩大文本图像(没有改进).看看eng.traineddata我可以看到tesseract没有用Segoe UI 8 CLEARTYPE QUALITY训练.

问题:如何使用新字体训练tesseract 指定只应使用该字体?

在此输入图像描述

Mar*_*gus 1

请提供一个您的努力的例子。我的目标是帮助您实现目标,而不是为您做工作。

这是一个相当常见的问题,很多人都已经解决了这个问题,其中一些人比其他人更有效。您可以使用他们创建的工具。

一个例子

还有很多其他的,其中一些只提供字体,并为此进行了优化。这可能是对你影响更大的事情。例如:

还有其他的例子,但大多数都使用图像魔法和其他工具来提高初始输入数据的质量,以便 OCR 工具发挥最大作用。就我个人而言,我在运行 Tesseract 之前编写了高效的 C# GDI 转换来操作输入数据。