如何使用Ghostscript或ImageMagick从PDF中提取图像？

Question

我需要渲染或获取特定PDF文件中的所有图像.如何使用Ghostscript或ImageMagick实现此目的？

Answer 1

您无法使用Ghostscript,但您可以使用Poppler或XPDF的命令行工具来完成它pdfimages:

pdfimages -j some.pdf subdir/image-prefix

所有图像现在都将位于subdir/命名image-prefix-0001.jpg,image-prefix-0002.jpg...

该-j参数将使命令尝试直接提取JPEG.如果无法创建JPEG,它将创建PNM或PPM,您可以使用ImageMagick始终转换它们:

convert subdir/image-prefix-0033.ppm subdir/image-prefix-0033.jpeg

@patxiska你为什么不尝试一下这两种变体来看看有什么不同呢？（您的“convert”将 PDF 页面转换为全页图像，甚至包括页面的文本部分；“pdfimages”*提取*嵌入 PDF 页面中的图像，不包含文本部分。） (2认同)

Answer 2

如果不自己编写一个 Ghostscript 设备，您当然无法在 Ghostscript 中做到这一点。
我怀疑你也可以用 ImageMagick 做到这一点。
你看过PDFtk吗吗？

如果您使用的是 Windows，那么很快就会出现 Google：

在 Linux 上：