将 OCR 信息添加到 PDF

fdi*_*rre 31 pdf scanning ocr

我对文档进行了高质量的扫描;这种扫描是pdf格式。

如何将 ocr 信息添加到 pdf 中,使其变得可搜索?通过可搜索,我的意思是目标是在使用 evince 查看 pdf 时,CTRL-F 实际上允许我在 pdf 内容中进行搜索。

小智 23

pdf三明治

做你想做的,并提供 Ubuntu deb 包。它使用 tesseract 作为 OCR 引擎。以下调用将文本层添加到您扫描的 PDF:

pdfsandwich scanned.pdf
Run Code Online (Sandbox Code Playgroud)

以下是相同的,但使用另一种语言(ISO 639-2 代码,下载tesseract-ocr-LANGCODE包)并设置布局:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf
Run Code Online (Sandbox Code Playgroud)

如果您遇到任何错误,请从 Sourceforge 下载最新版本的 deb

免责声明:我是 pdfsandwich 的开发者,因此显然有偏见。

  • 这真的很棒,谢谢。然而,它似乎修改了图像,看起来它在它们上面运行了一个不清晰的蒙版或其他东西。有没有办法让图像完全保持原样?在我的特定示例中,过滤器甚至设法从某些方程中的几个分数中删除了条形。不过其他一切都运行得很好...... (7认同)

小智 9

有两个项目可以解决问题:GScan2PDFOCRFeeder


小智 8

OCRmyPDF是一种易于实现并提供具有与输入文件相同质量和合理大小的输出 pdf 的解决方案:

OCRmyPDF 向扫描的 PDF 文件添加 OCR 文本层,允许搜索或复制粘贴它们。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output
Run Code Online (Sandbox Code Playgroud)