我对文档进行了高质量的扫描;这种扫描是pdf格式。
如何将 ocr 信息添加到 pdf 中,使其变得可搜索?通过可搜索,我的意思是目标是在使用 evince 查看 pdf 时,CTRL-F 实际上允许我在 pdf 内容中进行搜索。
小智 23
做你想做的,并提供 Ubuntu deb 包。它使用 tesseract 作为 OCR 引擎。以下调用将文本层添加到您扫描的 PDF:
pdfsandwich scanned.pdf
Run Code Online (Sandbox Code Playgroud)
以下是相同的,但使用另一种语言(ISO 639-2 代码,下载tesseract-ocr-LANGCODE包)并设置布局:
pdfsandwich -verbose -lang spa -layout single scanned.pdf
Run Code Online (Sandbox Code Playgroud)
如果您遇到任何错误,请从 Sourceforge 下载最新版本的 deb。
免责声明:我是 pdfsandwich 的开发者,因此显然有偏见。
小智 8
OCRmyPDF是一种易于实现并提供具有与输入文件相同质量和合理大小的输出 pdf 的解决方案:
OCRmyPDF 向扫描的 PDF 文件添加 OCR 文本层,允许搜索或复制粘贴它们。
Run Code Online (Sandbox Code Playgroud)ocrmypdf # it's a scriptable command line program -l eng+fra # it supports multiple languages --rotate-pages # it can fix pages that are misrotated --deskew # it can deskew crooked PDFs! --title "My PDF" # it can change output metadata --jobs 4 # it uses multiple cores by default --output-type pdfa # it produces PDF/A by default input_scanned.pdf # takes PDF input (or images) output_searchable.pdf # produces validated PDF output