Tesseract使用字母子集

Question

Tesseract使用字母子集

Pep*_*zza 1 python linux ocr captcha tesseract

我在Ubuntu Linux上使用tesseract-ocr软件包,我已经使用了一段时间,我认为为了提高OCR的准确性,我只需要字母表中的字母子集.我需要的信件是:

0123456789abcdefghijklmnopqrstuvwxyz

Run Code Online (Sandbox Code Playgroud)

只有那个,甚至不是大写字母,任何人都可以帮我指示tesseract只匹配一部分字母吗？

谢谢,

Answer 1

Nis*_*n.H 7

从python-tesseract项目页面:

import tesseract
api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz")
api.SetPageSegMode(tesseract.PSM_AUTO)

Run Code Online (Sandbox Code Playgroud)

所以只需设置自己的字符集api.SetVariable.

来自tesseract-ocr项目常见问题解答

Tesseract 2.03 使用

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

Run Code Online (Sandbox Code Playgroud)

在调用Init函数之前或将其放在名为tessdata/configs/digits的文本文件中:

tessedit_char_whitelist 0123456789

Run Code Online (Sandbox Code Playgroud)

然后你的命令行变成:

tesseract image.tif outputbase nobatch digits

Run Code Online (Sandbox Code Playgroud)

警告:在旧的和新的配置变量合并之前,您还必须具有nobatch参数.

Tesseract 3 已创建一个数字配置文件,因此只需运行如下的tesseract命令:

tesseract imagename outputbase digits

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，10 月前
查看次数：	4094 次
最近记录：	12 年，10 月前