在Tesseract中为自定义字体创建新的eng.tessdata文件,给出错误

mjo*_*osh 6 windows ocr tesseract batch-file command-line-interface

将PDF文件转换.tiff为非常简单的文件

convert -depth 4 -density 300 -background white +matte eng.arial.pdf eng.arial.tiff
Run Code Online (Sandbox Code Playgroud)

然后训练tesseract的.tiff文件 -

tesseract eng.arial.tiff eng.arial batch.nochop makebox
Run Code Online (Sandbox Code Playgroud)

然后将.tiff文件输入tesseract -

tesseract eng.arial.tiff eng.arial.box nobatch box.train .stderr
Run Code Online (Sandbox Code Playgroud)

检测使用的字符集 -

unicharset_extractor *.box 
Run Code Online (Sandbox Code Playgroud)

但是我收到了这个错误 -

unicharset_extractor:./.libs/lt-unicharset_extractor.c:233: FATAL: couldn't find unicharset_extractor.
Run Code Online (Sandbox Code Playgroud)

而且它也发生了mftrainingcombine_tessdata为好.

UPDATE

在单个文件夹文件中运行unicharset_extractor仍然无法正常工作.

在此输入图像描述

它不仅有这个命令,还有和mftraining,cntrainingcombine_tessdata.