如何光栅化 PDF 中的所有文本？

Question

你知道当你有一个 pdf 文件时，它是一个文件的扫描件，它是一个非常大的文件，因为它只存储扫描文件的图片？

并且有 OCR 工具可以帮助您制作仅存储文本的适当文档？

好吧，我需要相反的！假设我生成了一个完美的 pdf 文档pdflatex，我需要将其转换为如此“巨大”的 pdf，它在打印在纸上时看起来完全相同（具有特定的 dpi 值），但只是原始图片。

我最初的想法是将 pdf 转换为一系列 JPG，然后再转换回 PDF，但也许有一些规范的方法？

如果您想知道我为什么要做这样的事情：我目前使用的是网络打印机，它不是由我维护的，并且会随机丢弃打印文件中的字符！因此，在有人弄清楚那里出了什么问题之前，我希望将此作为解决方法。

Answer 1

您可以测试基于图像的 PDF 是否也被污染。首先将 PDF 转换为（多页）TIFF，例如使用Ghostscript：

gs -sDEVICE=tiffg4 -o sample.tif sample.pdf

然后将 TIFF 转换为 PDF，例如：

tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif

这会生成一个 PDF 文件，其中页面是图像而不是文本。

或者，如果您的系统支持打印 TIFF 文件，请尝试直接打印。

还有一个pdf2ps将 PDF 转换为 PS 的选项，如果可行的话，可能会更好。