使tesseract只识别数字

Question

我正在尝试改进我用来读取我正在使用的某个图像的布局的OCR编程.现在,我希望我的OCR编程只识别数字0-9.

我试图按照问题的解决方案:

但是我被困在我必须称为tesseract的部分:

tesseract input.tif output nobatch letters

这到底在哪里？

Answer 1

前段时间我在 SO 中发布了一些关于 tesseract 的内容：请参阅Tesseract OCR 库 - 学习字体。有一个链接到 tesseract training会告诉你如何限制你的字符集并描述你的歧义。

Answer 2

我有同样的问题使用python,wit tesseract 3假设更多的读者可能会这样做.

我成功使用:

pytesseract.image_to_string(someimage,config ='outputbase digits')