"添加"新字体到Tesseract eng.traineddata

md1*_*nox 14 python ocr tesseract

据我所知,Tesseract 3.x附带6个英文(如果我错了,请更正)字体.我需要训练Tesseract更多5种字体.我只需要大写字母和数字(没有特殊字符或符号).

我遵循了各种流程,例如: 向Tesseract 3 OCR Engine添加新字体

并使用工具自动化过程,如 Serak Tesseract Trainer for Tesseract 3.02

为了生成盒子文件,我使用了QT Box Editor

使用上面的工具后,我得到了eng.traineddata文件.所有教程告诉我将此eng.traineddata文件添加到该Tesseract-OCR\tessdata文件夹,但这样做,它将替换原始eng.traineddata文件.这样做之后我会丢失Tesseract 3.x附带的默认字体吗?

如何添加新字体?它仍然不清楚.我希望有人可以帮助我.谢谢.

ngu*_*enq 16

应该使用不同的名称,例如eng1.traineddata.这样,您可以通过指定语言选项将新数据与原始数据一起使用-l eng+eng1.