将tesseract训练为一种特定字体

Question

我正在使用tesseract从屏幕刮板应用程序中获取OCR文本.使用的唯一字体是Segoe UI 8 CLEARTYPE QUALITY(见下图).此时,tesseract做得很差,混合了Z和2,0和o等等.

我试图扩大文本图像(没有改进).看看eng.traineddata我可以看到tesseract没有用Segoe UI 8 CLEARTYPE QUALITY训练.

问题:如何使用新字体训练tesseract 并指定只应使用该字体？

Answer 1

请提供一个您的努力的例子。我的目标是帮助您实现目标，而不是为您做工作。

这是一个相当常见的问题，很多人都已经解决了这个问题，其中一些人比其他人更有效。您可以使用他们创建的工具。

一个例子

还有很多其他的，其中一些只提供字体，并为此进行了优化。这可能是对你影响更大的事情。例如：

还有其他的例子，但大多数都使用图像魔法和其他工具来提高初始输入数据的质量，以便 OCR 工具发挥最大作用。就我个人而言，我在运行 Tesseract 之前编写了高效的 C# GDI 转换来操作输入数据。