任何人都知道如何在Tesseract中使用用户模式(user_patterns_suffix)?你能告诉我如何处理它以及如何测试它的工作原理吗?我试图遵循Tesseract指南(Tessearct用户模式但我没有看到它影响结果.
谢谢.
我已经对此有所了解但我似乎无法限制Tesseract只输出我构建的"user-words"字典中的单词.我不想要任何其他东西,只是基本匹配这些词.
有谁知道如何做到这一点?
我想用Tesseract读取一个特定的字符序列,如下文所示: Tesseract OCR:是否可以强制使用特定的模式?
我已尝试在Tesseract中使用模式进行市场匹配模式,\d\d\d\A\A并且ocr仍然可以识别其他不匹配的单词.
我曾尝试使用"tessedit_char_whitelist"参数但我无法选择字符的位置.
tesseract image.jpg result -l eng bazaar
我有这样的消息:请在模式的开头提供至少4个具体字符
用户模式无效
\A\A\d\d\d与Leptonica一起使用Tesseract开源OCR Engine v3.01
结果 :
AB123
ABC12
A1234
12345
ABCD1
Run Code Online (Sandbox Code Playgroud)所以这是错的,我只想抓住序列"AB123".
有人可以告诉我为什么我的用户模式文件中的正则表达式没有效果?对于配置,我严格遵循市集教程.
我想在这张图片上做OCR.
这是预定义的格式.即前五个将是字符,然后接下来的四个将是数字,最后一个将是字符.
当我执行以下命令
$ tesseract in.png stdout
Run Code Online (Sandbox Code Playgroud)
我输出为BDVPD474SQ
所以,我去了用户模式.我创建了一个名为bazaar的文件(在目录/ usr/share/tesseract-ocr/tessdata/configs中)(其内容如下)
load_system_dawg F
load_freq_dawg F
user_patterns_suffix user-patterns
Run Code Online (Sandbox Code Playgroud)
我还在目录/ usr/share/tesseract-ocr/tessdata中创建了一个名为eng.user-patterns的文件(其内容如下)
\A\A\A\A\A\d\d\d\d\A
Run Code Online (Sandbox Code Playgroud)
不过,我得到了同样的结果
$ tesseract in.png stdout bazaar
BDVPD474SQ
Run Code Online (Sandbox Code Playgroud)
我做错了什么?Tess4j有没有人完成这个?