从 PDF 文件中提取背景图像?

Wil*_*tin 9 pdf extract xpdf pdf-reader

我有一个 PDF 文件,其中包含我工作的建筑物的地图,在这里:

http://www.libsys.und.edu/dev/FloorPlans_All.pdf

原始源文件已经丢失,我被要求提取地图图像,最好不要覆盖在它们上面的文本和图标。事实证明,这非常困难。

到目前为止,我已经尝试了以下 GUI 程序:

  • Adobe Reader:让我选择文本,而不是背景图像
  • FoxIt PDF Viewer:让我选择文本,而不是背景图像
  • Ubuntu 10.10 上的 XPDF:让我选择文本,而不是背景图像

还有以下命令行程序:

  • pdfimages:提取指示浴室的图标就好了,但不是背景图像
  • pdftohtml:与 pdfimages 相同,另外它会生成一个标记不佳的 HTML 文档
  • pdfextract:与pdfimages相同
  • 转换:成功保存图像,但将文本刻录到其中

我什至尝试在文本编辑器中手动打开 PDF 并通过将流对象粘贴到新文件中并使用 .jpg、.png 或 .bmp 扩展名(依次保存)来提取流对象。考虑到我对 PDF 文件的内部结构知之甚少,这不起作用也就不足为奇了。

那么......有什么方法可以从这个东西中检索地图图像而不用获取文本和图标?

小智 7

您可以从http://www.foolabs.com/xpdf/download.html下载适用于 Linux 和 Windows的 XPDF 库。然后运行pdfimages -j input.pdf output,你应该得到output-000.jpgoutput-001.jpg等。另外,查看http://linuxcommand.org/man_pages/pdfimages1.html以获得更多使用选项。