Dim*_*ann 5 linux ocr pdf pdftk
你知道当你有一个 pdf 文件时,它是一个文件的扫描件,它是一个非常大的文件,因为它只存储扫描文件的图片?
并且有 OCR 工具可以帮助您制作仅存储文本的适当文档?
好吧,我需要相反的!假设我生成了一个完美的 pdf 文档pdflatex,我需要将其转换为如此“巨大”的 pdf,它在打印在纸上时看起来完全相同(具有特定的 dpi 值),但只是原始图片。
我最初的想法是将 pdf 转换为一系列 JPG,然后再转换回 PDF,但也许有一些规范的方法?
如果您想知道我为什么要做这样的事情:我目前使用的是网络打印机,它不是由我维护的,并且会随机丢弃打印文件中的字符!因此,在有人弄清楚那里出了什么问题之前,我希望将此作为解决方法。
您可以测试基于图像的 PDF 是否也被污染。首先将 PDF 转换为(多页)TIFF,例如使用Ghostscript:
gs -sDEVICE=tiffg4 -o sample.tif sample.pdf
Run Code Online (Sandbox Code Playgroud)
然后将 TIFF 转换为 PDF,例如:
tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif
Run Code Online (Sandbox Code Playgroud)
这会生成一个 PDF 文件,其中页面是图像而不是文本。
或者,如果您的系统支持打印 TIFF 文件,请尝试直接打印。
还有一个pdf2ps将 PDF 转换为 PS 的选项,如果可行的话,可能会更好。