Tesseract OCR力模式

Question

我想用Tesseract读取一个特定的字符序列,如下文所示: Tesseract OCR:是否可以强制使用特定的模式？

我已尝试在Tesseract中使用模式进行市场匹配模式,\d\d\d\A\A并且ocr仍然可以识别其他不匹配的单词.

我曾尝试使用"tessedit_char_whitelist"参数但我无法选择字符的位置.

请在模式的开头提供至少4个具体字符

用户模式无效 \A\A\d\d\d

与Leptonica一起使用Tesseract开源OCR Engine v3.01

所以这是错的,我只想抓住序列"AB123".

有人可以告诉我为什么我的用户模式文件中的正则表达式没有效果？对于配置,我严格遵循市集教程.

Answer 1

尝试将此模式与量词结合使用。

[a-zA-Z]{2}\d{3}

这应该只包含 2 个字母字符和 3 个数字。

您之所以匹配之前的所有内容，是因为 \w 是字母数字。