我正在通过tesseract以下方式创建 OCR-ed PDF :
tesseract input.tif out pdf
Run Code Online (Sandbox Code Playgroud)
但我也需要hocr和txt文件。的最新版本tesseract 已经解决了这个问题,但是因为它需要同时编译leptonica和tesseract,所以我对它并不完全满意。
我可以pdftotext用来提取文本文件,但似乎找不到hocr从 PDF 中提取的方法。
小智 2
您只需运行以下命令即可同时创建 pdf 和 hocr。
tesseract input.tif out pdf hocr
Run Code Online (Sandbox Code Playgroud)