我使用tesseract从多页tif开始生成与hocr2pdf一起使用的特殊html。
我尝试使用 hoc2pdf 生成“三明治 pdf”(图像 + 隐藏文本层)。
Hocr2pdf 生成一页 pdf,所有页面都叠加在一起。
有没有办法解决这个问题或替代解决方案?
我找到了解决此问题的方法。Hocr2pdf 在生成多页 pdf 时存在问题,因此我生成了单页 tif,运行 tesseract-ocr,运行 hocr2pdf,然后将结果与以下脚本结合起来:
for f in ./*.tif; do
tesseract "$f" "$f" -l fra hocr
hocr2pdf -i "$f" -s -o "$f.pdf" < "$f.html"
done
pdftk *.tif.pdf cat output "output.pdf" && rm *.tif.pdf && rm *.tif.html
Run Code Online (Sandbox Code Playgroud)