Tesseract OCR力模式

leo*_*den 7 regex ocr tesseract

我想用Tesseract读取一个特定的字符序列,如下文所示: Tesseract OCR:是否可以强制使用特定的模式?

我已尝试在Tesseract中使用模式进行市场匹配模式,\d\d\d\A\A并且ocr仍然可以识别其他不匹配的单词.

我曾尝试使用"tessedit_char_whitelist"参数但我无法选择字符的位置.

  • 我启动命令:tesseract image.jpg result -l eng bazaar 我有这样的消息:

请在模式的开头提供至少4个具体字符

用户模式无效 \A\A\d\d\d

与Leptonica一起使用Tesseract开源OCR Engine v3.01

  • image.jpg:

在此输入图像描述

所以这是错的,我只想抓住序列"AB123".

有人可以告诉我为什么我的用户模式文件中的正则表达式没有效果?对于配置,我严格遵循市集教程.

has*_*jet -1

尝试将此模式与量词结合使用。

[a-zA-Z]{2}\d{3}
Run Code Online (Sandbox Code Playgroud)

这应该只包含 2 个字母字符和 3 个数字。

您之所以匹配之前的所有内容,是因为 \w 是字母数字。