leo*_*den 7 regex ocr tesseract
我想用Tesseract读取一个特定的字符序列,如下文所示: Tesseract OCR:是否可以强制使用特定的模式?
我已尝试在Tesseract中使用模式进行市场匹配模式,\d\d\d\A\A
并且ocr仍然可以识别其他不匹配的单词.
我曾尝试使用"tessedit_char_whitelist"参数但我无法选择字符的位置.
tesseract image.jpg result -l eng bazaar
我有这样的消息:请在模式的开头提供至少4个具体字符
用户模式无效
\A\A\d\d\d
与Leptonica一起使用Tesseract开源OCR Engine v3.01
结果 :
AB123
ABC12
A1234
12345
ABCD1
Run Code Online (Sandbox Code Playgroud)所以这是错的,我只想抓住序列"AB123".
有人可以告诉我为什么我的用户模式文件中的正则表达式没有效果?对于配置,我严格遵循市集教程.
has*_*jet -1
尝试将此模式与量词结合使用。
[a-zA-Z]{2}\d{3}
Run Code Online (Sandbox Code Playgroud)
这应该只包含 2 个字母字符和 3 个数字。
您之所以匹配之前的所有内容,是因为 \w 是字母数字。