Tesseract 似乎不适用于数字

Question

我按照常见问题解答让 Tesseract 识别数字，但我得到的只是输出文件中的一堆文本，尽管我的图像中只有数字。

我的命令行如下所示：

tesseract --tessdata-dir ./ ./input.jpg ./output/output digits

任何想法可能会发生什么？

Answer 1

正如tesseract github issue 中提到的，您不能使用 tesseract 4.0 LSTM 将字符列入黑名单或白名单，相反，您应该使用您期望的图像字符训练 LSTM。

感谢Shreeshrii，您可以从这里尝试他的“实验性”数字训练数据

请注意，Tesseract 4.0 仍处于 alpha 阶段，如果您愿意，您仍然可以使用 3.* 版本的 tesseract 来支持您的需求。Tesseract v 3.4 tessdata 位于此处，Windows 库可从此处下载