我刚开始使用Tesseract.
我按照这里描述的说明操作.
我创建了一个这样的测试图像:
training/text2image --text=test.txt --outputbase=eng.Arial.exp0 --font='Arial' --fonts_dir=/usr/share/fonts
Run Code Online (Sandbox Code Playgroud)
现在我想训练Tesseract如下:
tesseract eng.Arial.exp0.tif eng.Arial.exp0 box.train
Run Code Online (Sandbox Code Playgroud)
这是我的输出:
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
APPLY_BOXES:
Boxes read from boxfile: 112
Found 112 good blobs.
Generated training data for 21 words
Warning in pixReadMemTiff: tiff page 1 not found
Run Code Online (Sandbox Code Playgroud)
这可以防止创建fontfile.tr文件.我已经尝试继续忽略警告,但在创建char-sets时,我得到了一个令人满意的内容:
unicharset_extractor lang.fontname.exp0.box
"58
NULL 0 NULL 0
Joined 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0 # Joined [4a 6f 69 6e 65 64 ]
|Broken|0|1 0 …Run Code Online (Sandbox Code Playgroud)