Pep*_*zza 1 python linux ocr captcha tesseract
我在Ubuntu Linux上使用tesseract-ocr软件包,我已经使用了一段时间,我认为为了提高OCR的准确性,我只需要字母表中的字母子集.我需要的信件是:
0123456789abcdefghijklmnopqrstuvwxyz
Run Code Online (Sandbox Code Playgroud)
只有那个,甚至不是大写字母,任何人都可以帮我指示tesseract只匹配一部分字母吗?
谢谢,
import tesseract
api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz")
api.SetPageSegMode(tesseract.PSM_AUTO)
Run Code Online (Sandbox Code Playgroud)
所以只需设置自己的字符集api.SetVariable
.
Tesseract 2.03 使用
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");
Run Code Online (Sandbox Code Playgroud)
在调用Init函数之前或将其放在名为tessdata/configs/digits的文本文件中:
tessedit_char_whitelist 0123456789
Run Code Online (Sandbox Code Playgroud)
然后你的命令行变成:
tesseract image.tif outputbase nobatch digits
Run Code Online (Sandbox Code Playgroud)
警告:在旧的和新的配置变量合并之前,您还必须具有nobatch参数.
Tesseract 3 已创建一个数字配置文件,因此只需运行如下的tesseract命令:
tesseract imagename outputbase digits
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4094 次 |
最近记录: |