我正在通过tesseract
以下方式创建 OCR-ed PDF :
tesseract input.tif out pdf
Run Code Online (Sandbox Code Playgroud)
但我也需要hocr
和txt
文件。的最新版本tesseract
已经解决了这个问题,但是因为它需要同时编译leptonica
和tesseract
,所以我对它并不完全满意。
我可以pdftotext
用来提取文本文件,但似乎找不到hocr
从 PDF 中提取的方法。
小智 2
您只需运行以下命令即可同时创建 pdf 和 hocr。
tesseract input.tif out pdf hocr
Run Code Online (Sandbox Code Playgroud)