如何使用 hocr2pdf 生成多页三明治 pdf?

To *_* Do 6 pdf ocr

我使用tesseract从多页tif开始生成与hocr2pdf一起使用的特殊html。

我尝试使用 hoc2pdf 生成“三明治 pdf”(图像 + 隐藏文本层)。

Hocr2pdf 生成一页 pdf,所有页面都叠加在一起。

有没有办法解决这个问题或替代解决方案?

To *_* Do 3

我找到了解决此问题的方法。Hocr2pdf 在生成多页 pdf 时存在问题,因此我生成了单页 tif,运行 tesseract-ocr,运行 hocr2pdf,然后将结果与以下脚本结合起来:

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html
Run Code Online (Sandbox Code Playgroud)