使tesseract只识别数字

use*_*215 6 python ocr tesseract

我正在尝试改进我用来读取我正在使用的某个图像的布局的OCR编程.现在,我希望我的OCR编程只识别数字0-9.

我试图按照问题的解决方案:

限制字符tesseract正在寻找

但是我被困在我必须称为tesseract的部分:

tesseract input.tif output nobatch letters  
Run Code Online (Sandbox Code Playgroud)

这到底在哪里?

Emm*_*uel 6

前段时间我在 SO 中发布了一些关于 tesseract 的内容:请参阅Tesseract OCR 库 - 学习字体。有一个链接到 tesseract training会告诉你如何限制你的字符集并描述你的歧义。


小智 5

我有同样的问题使用python,wit tesseract 3假设更多的读者可能会这样做.

从这里:https://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits

在这里:https: //github.com/madmaze/pytesseract/blob/27fed535bf1eb665ec991313841b177336b50f61/src/pytesseract.py#L91

我成功使用:

pytesseract.image_to_string(someimage,config ='outputbase digits')