tesseract 5.0 bazaar + 用户词配置不起作用

vox*_*ter 7 ocr tesseract python-tesseract

我试图强制 tesseract 在执行 OCR 时只使用我的单词列表。首先,我将集市文件复制到/usr/share/tesseract-ocr/5/tessdata/configs/. 这是我的集市文件:

load_system_dawg F
load_freq_dawg F
user_words_suffix user-words
Run Code Online (Sandbox Code Playgroud)

然后,我eng.user-words/usr/share/tesseract-ocr/5/tessdata. 这是我的用户词文件:

Items
VAT
included
CASH
Run Code Online (Sandbox Code Playgroud)

然后我通过命令对这个图像执行 ocr: tesseract -l eng --oem 2 test_small.jpg stdout bazaar

测试图像

这是我的结果:

2 Item(s) (VAT includsd) 36,000
casH 40,000
CHANGE 4. 000
Run Code Online (Sandbox Code Playgroud)

如您所见,includsd不在我的用户词文件中,它应该被“包含”。此外,即使没有bazaaz在命令中使用配置,我也得到了相同的结果。看起来 mybazaareng.user-wordsconfig 对 OCR 输出没有任何影响。那么如何使用bazaaruser-words配置,以获得想要的结果呢?

jtm*_*yer -1

user_words_suffix似乎不适用于--oem 2. 解决方法是使用user_words_file包含用户单词文件路径的文件。