发现有关 PDF 的元数据

Fah*_*tha 55 pdf file-metadata

假设我有一个 PDF 并且我想获取该 PDF 可用的任何元数据。我应该使用什么实用程序?

我发现我通常最想知道的信息是纸张大小,这是 PDF 查看者通常不会报告的内容。例如,PDF 大小是 letter、legal、A4 还是其他尺寸?但其他可用信息也可能令人感兴趣。

Ulr*_*arz 70

pdfinfo如果我记得的话,其中一种规范工具是xpdf 附带的 . 示例输出:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5
Run Code Online (Sandbox Code Playgroud)

  • 在 Debian 中,至少这是 poppler-utils 的一部分。我这里有一个文件,pdfinfo 报告为 595.2 x 841.44 pts。但这并未报告为 A4。是什么决定将其标记为 A4? (4认同)
  • 名称 [硬编码](http://cgit.freedesktop.org/poppler/poppler/tree/utils/pdfinfo.cc?id=bd99616b9c06f96beadb68e015d2904b7fe2df1d):字母为 612 ± 0.1 x 192/ DIN 大小为 0. ISO A 是(所有 ±1 pt):3370.98、2383.64、1685.49、1191.82、842.74、595.91,...,所以看起来你的页面有点太窄,`pdfinfo` 无法找到它。 (3认同)
  • 这就是字母,A 格式与 `sqrt(2)` 循环。 (2认同)

Glu*_*ate 32

另一个值得研究的实用程序是exiftool。在您的特定情况下,它可能不是正确的工具,因为它不报告有关文档几何形状的任何信息,但总的来说,它可能是检查 PDF 元数据的功能最完整的工具。

下面是一个命令示例,它将打印所有可用的元信息 ( -a),按组 ( -G1)排序:

exiftool -a -G1 "$File"
Run Code Online (Sandbox Code Playgroud)

官方文档提供了支持的 PDF 相关标签的概述:

您可以使用以下命令在 Debian/Ubuntu 上安装 exiftool:

sudo apt-get install libimage-exiftool-perl
Run Code Online (Sandbox Code Playgroud)

如果您更喜欢 GUI 方面的事情,您可以尝试一下我的项目PDFMtEd。它是一组工具,用作 exiftool 的图形前端并允许查看和编辑 PDF 元数据。

下面是几个截图:

在此处输入图片说明

在此处输入图片说明