如何从PDF中提取hocr文件?

Rys*_*aum 5 pdf

我正在通过tesseract以下方式创建 OCR-ed PDF :

tesseract input.tif out pdf
Run Code Online (Sandbox Code Playgroud)

但我也需要hocrtxt文件。的最新版本tesseract 已经解决了这个问题,但是因为它需要同时编译leptonicatesseract,所以我对它并不完全满意。

我可以pdftotext用来提取文本文件,但似乎找不到hocr从 PDF 中提取的方法。

小智 2

您只需运行以下命令即可同时创建 pdf 和 hocr。

tesseract input.tif out pdf hocr 
Run Code Online (Sandbox Code Playgroud)