将 OCR 信息添加到 PDF

Question

将 OCR 信息添加到 PDF

fdi*_*rre 31 pdf scanning ocr

我对文档进行了高质量的扫描；这种扫描是pdf格式。

如何将 ocr 信息添加到 pdf 中，使其变得可搜索？通过可搜索，我的意思是目标是在使用 evince 查看 pdf 时，CTRL-F 实际上允许我在 pdf 内容中进行搜索。

Answer 1

小智 23

pdf三明治

做你想做的，并提供 Ubuntu deb 包。它使用 tesseract 作为 OCR 引擎。以下调用将文本层添加到您扫描的 PDF：

pdfsandwich scanned.pdf

Run Code Online (Sandbox Code Playgroud)

以下是相同的，但使用另一种语言（ISO 639-2 代码，下载tesseract-ocr-LANGCODE包）并设置布局：

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Run Code Online (Sandbox Code Playgroud)

如果您遇到任何错误，请从 Sourceforge 下载最新版本的 deb。

免责声明：我是 pdfsandwich 的开发者，因此显然有偏见。

这真的很棒，谢谢。然而，它似乎修改了图像，看起来它在它们上面运行了一个不清晰的蒙版或其他东西。有没有办法让图像完全保持原样？在我的特定示例中，过滤器甚至设法从某些方程中的几个分数中删除了条形。不过其他一切都运行得很好...... (7认同)

Answer 2

小智 9

有两个项目可以解决问题：GScan2PDF和OCRFeeder

Answer 3

小智 8

OCRmyPDF是一种易于实现并提供具有与输入文件相同质量和合理大小的输出 pdf 的解决方案：

OCRmyPDF 向扫描的 PDF 文件添加 OCR 文本层，允许搜索或复制粘贴它们。

ocrmypdf                      # it's a scriptable command line program
   -l eng+fra                 # it supports multiple languages
   --rotate-pages             # it can fix pages that are misrotated
   --deskew                   # it can deskew crooked PDFs!
   --title "My PDF"           # it can change output metadata
   --jobs 4                   # it uses multiple cores by default
   --output-type pdfa         # it produces PDF/A by default
   input_scanned.pdf          # takes PDF input (or images)
   output_searchable.pdf      # produces validated PDF output

Run Code Online (Sandbox Code Playgroud)

归档时间：	14 年，1 月前
查看次数：	17815 次
最近记录：	5 年前