如何使用 hocr2pdf 生成多页三明治 pdf？

Question

如何使用 hocr2pdf 生成多页三明治 pdf？

To *_* Do 6 pdf ocr

我使用tesseract从多页tif开始生成与hocr2pdf一起使用的特殊html。

我尝试使用 hoc2pdf 生成“三明治 pdf”（图像 + 隐藏文本层）。

Hocr2pdf 生成一页 pdf，所有页面都叠加在一起。

有没有办法解决这个问题或替代解决方案？

Answer 1

To *_* Do 3

我找到了解决此问题的方法。Hocr2pdf 在生成多页 pdf 时存在问题，因此我生成了单页 tif，运行 tesseract-ocr，运行 hocr2pdf，然后将结果与以下脚本结合起来：

for f in ./*.tif; do
   tesseract "$f" "$f" -l fra hocr
   hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html

Run Code Online (Sandbox Code Playgroud)

归档时间：	12 年，7 月前
查看次数：	3133 次
最近记录：	12 年，7 月前