如何从PDF中提取hocr文件？

Question

我正在通过tesseract以下方式创建 OCR-ed PDF ：

tesseract input.tif out pdf

但我也需要hocr和txt文件。的最新版本tesseract 已经解决了这个问题，但是因为它需要同时编译leptonica和tesseract，所以我对它并不完全满意。

我可以pdftotext用来提取文本文件，但似乎找不到hocr从 PDF 中提取的方法。

Answer 1

您只需运行以下命令即可同时创建 pdf 和 hocr。

tesseract input.tif out pdf hocr