arj*_*jan 7 pdf imagemagick images
我收到了许多带有图像的 pdf 文件。原始图像已经丢失,所以我需要提取它们。我有 Adobe Acrobat Pro,所以我使用Advanced > Document Processing > Export All Images(有四个选项:jpeg、png、tiff、jpeg2000)提取它们。但是,我想以原始格式提取它们,这显然不是 jpeg:我还按照此处所述从 xpdf 中测试了pdfimages.exe,这给出了 .ppm 文件,而不是 jpeg。
所以我尝试了 ImageMagick 的识别,它给了我这个:
identify images-000.ppm
images-000.ppm PPM 870x1181 870x1181+0+0 8-bit sRGB 3.082MB 0.000u 0:00.000
Run Code Online (Sandbox Code Playgroud)
这是否表明它是嵌入式 .bmp?怎么讲?我实际上希望 Acrobat 中有一个函数来识别图像的格式,但我找不到它。
那么,识别pdf中图像的图像格式的最佳方法是什么?
(由于批处理功能,我更喜欢通过 Acrobat 提取)。
AFAIK,嵌入 PDF 中的图像 XObject 不存储有关原始图像格式的任何信息。最多如果它是嵌入的 JPEG,则可以按原样提取,但对于所有其他情况,您最终都会得到需要转换的 PxM 图像。