如何将扫描的 PDF 转换为带文本的 PDF

Adm*_*ral 42 pdf

我已经将大约 80 页扫描成灰度 pdf(图像格式)。文件的最终大小约为70MB,非常庞大。

现在我正在寻找一种方法将基于灰度图像的 PDF 文件转换为简单的基于黑白文本的 PDF 文件。

我做了很多尝试,gs但都没有成功(只有百分之几的恢复)。如果任何专家有任何想法,请告诉我。

A.B*_*.B. 29

gImageReader 是一个简单的 GTK+ 前端到tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr
Run Code Online (Sandbox Code Playgroud)

对德文感到抱歉

  • 您还应该安装文档的语言以改进 OCR,使用 `sudo apt-get install tesseract-ocr-[lang]`,用语言代码替换 `lang`,例如`deu` 表示德语,`por` 表示葡萄牙语,等等。 (5认同)

小智 9

你可以试试pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr
Run Code Online (Sandbox Code Playgroud)

执行语法是

 pdfocr -i input.pdf -o output.pdf
Run Code Online (Sandbox Code Playgroud)

其中input.pdf是输入文件和output.pdf输出文件的名称。

默认情况下,它使用 Tesseract。要安装它:

 sudo apt-get install tesseract-ocr
Run Code Online (Sandbox Code Playgroud)

pdfocr 创建一个嵌入的文本层。

  • pdfocr 是一个自动执行以下过程的脚本: 1. 使用 pdftk 将 PDF 文件拆分为单独的页面 2. 使用 pdfimages 提取图像数据 3. 使用楔形文字进行 OCR(光学字符识别) 4. 将检测到的文本嵌入回使用 hocr2pdf 的 PDF 文件 5. 使用 pdftk 将文件合并在一起。(引自 https://ubuntuforums.org/showthread.php?t=1456756 ) (3认同)
  • 此存储库不支持 xenial (2认同)