小编Rys*_*aum的帖子

如何从PDF中提取hocr文件?

我正在通过tesseract以下方式创建 OCR-ed PDF :

tesseract input.tif out pdf
Run Code Online (Sandbox Code Playgroud)

但我也需要hocrtxt文件。的最新版本tesseract 已经解决了这个问题,但是因为它需要同时编译leptonicatesseract,所以我对它并不完全满意。

我可以pdftotext用来提取文本文件,但似乎找不到hocr从 PDF 中提取的方法。

pdf

5
推荐指数
1
解决办法
1359
查看次数

标签 统计

pdf ×1