Tesseract 似乎不适用于数字

Art*_*mix 3 tesseract

我按照常见问题解答让 Tesseract 识别数字,但我得到的只是输出文件中的一堆文本,尽管我的图像中只有数字。

我的命令行如下所示:

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits
Run Code Online (Sandbox Code Playgroud)

任何想法可能会发生什么?

Dmi*_* Z. 5

正如tesseract github issue 中提到的,您不能使用 tesseract 4.0 LSTM 将字符列入黑名单或白名单,相反,您应该使用您期望的图像字符训练 LSTM。

感谢Shreeshrii,您可以从这里尝试他的“实验性”数字训练数据

请注意,Tesseract 4.0 仍处于 alpha 阶段,如果您愿意,您仍然可以使用 3.* 版本的 tesseract 来支持您的需求。Tesseract v 3.4 tessdata 位于此处,Windows 库可从此处下载