我正在尝试向tesseract ocr添加新字体.我正在学习这个教程,但是我遇到了一些问题.
这是我到目前为止所做的:
创建培训文档
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
火车Tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
这创建了我的eng.myfont.exp0.box文件.
我用moshpytt打开文件并确保它被正确检测到.
将盒子文件送回tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
我有这个结果:
Tesseract开源OCR引擎v3.03与Leptonica
APPLY_BOXES:
从boxfile中读取的框:146
找到146个好的blob.
TRAINING ...字体名称= myfont.exp0
生成6个单词的训练数据
尝试检测框文件中使用的字符集(这是我卡住的地方)
unicharset_extractor *.box
结果:
unicharset_extractor:找不到命令
我也得到unicharset_extractor eng.myfont.exp0.box了同样的结果.
我正在使用: