我正在使用tesseract OCR with python-tesseract.在tesseract FAQ中,关于数字,我们有:
使用
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");在调用Init函数之前或将其放在名为tessdata/configs/digits的文本文件中:
tessedit_char_whitelist 0123456789然后你的命令行变成:
tesseract image.tif outputbase nobatch digits警告:在旧的和新的配置变量合并之前,您还必须具有nobatch参数.
在python-tesseract中,存在SetVariable方法.我试过这个,但是OCR的结果是一样的:
api = tesseract.TessBaseAPI()
api.SetVariable("tessedit_char_whitelist", "0123456789")
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)
Run Code Online (Sandbox Code Playgroud)
有没有人已经有这个工作,或者我应该认为它是python-tesseract中的一个错误?