如何将扫描的 PDF 转换为带文本的 PDF

Question

我已经将大约 80 页扫描成灰度 pdf（图像格式）。文件的最终大小约为70MB，非常庞大。

现在我正在寻找一种方法将基于灰度图像的 PDF 文件转换为简单的基于黑白文本的 PDF 文件。

我做了很多尝试，gs但都没有成功（只有百分之几的恢复）。如果任何专家有任何想法，请告诉我。

Answer 1

gImageReader 是一个简单的 GTK+ 前端到tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

对德文感到抱歉

您还应该安装文档的语言以改进 OCR，使用 `sudo apt-get install tesseract-ocr-[lang]`，用语言代码替换 `lang`，例如`deu` 表示德语，`por` 表示葡萄牙语，等等。 (5认同)

Answer 2

你可以试试pdfocr：

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

执行语法是

 pdfocr -i input.pdf -o output.pdf

其中input.pdf是输入文件和output.pdf输出文件的名称。

默认情况下，它使用 Tesseract。要安装它：

 sudo apt-get install tesseract-ocr

pdfocr 创建一个嵌入的文本层。

pdfocr 是一个自动执行以下过程的脚本： 1. 使用 pdftk 将 PDF 文件拆分为单独的页面 2. 使用 pdfimages 提取图像数据 3. 使用楔形文字进行 OCR（光学字符识别） 4. 将检测到的文本嵌入回使用 hocr2pdf 的 PDF 文件 5. 使用 pdftk 将文件合并在一起。（引自 https://ubuntuforums.org/showthread.php?t=1456756 ） (3认同)
此存储库不支持 xenial (2认同)