mjo*_*osh 6 windows ocr tesseract batch-file command-line-interface
将PDF文件转换.tiff为非常简单的文件
convert -depth 4 -density 300 -background white +matte eng.arial.pdf eng.arial.tiff
Run Code Online (Sandbox Code Playgroud)
然后训练tesseract的.tiff文件 -
tesseract eng.arial.tiff eng.arial batch.nochop makebox
Run Code Online (Sandbox Code Playgroud)
然后将.tiff文件输入tesseract -
tesseract eng.arial.tiff eng.arial.box nobatch box.train .stderr
Run Code Online (Sandbox Code Playgroud)
检测使用的字符集 -
unicharset_extractor *.box
Run Code Online (Sandbox Code Playgroud)
但是我收到了这个错误 -
unicharset_extractor:./.libs/lt-unicharset_extractor.c:233: FATAL: couldn't find unicharset_extractor.
Run Code Online (Sandbox Code Playgroud)
而且它也发生了mftraining和combine_tessdata为好.
UPDATE
在单个文件夹文件中运行unicharset_extractor仍然无法正常工作.
它不仅有这个命令,还有和mftraining,cntraining和combine_tessdata.