在PHP中阅读PDF元数据

10 php pdf metadata

我正在尝试阅读附加到任意PDF的元数据:标题,作者,主题和关键字.

是否有可以读取PDF元数据的PHP库,最好是开源的?如果是,或者如果没有,那么如何使用库(或缺少库)来提取元数据?

为了清楚起见,我对创建或修改PDF或其元数据不感兴趣,我不关心PDF主体.我看过很多库,包括FPDF(每个人似乎都推荐),但它似乎只是用于PDF创建,而不是元数据提取.

小智 8

Zend框架包含Zend_Pdf,这使得这非常简单:

$pdf = Zend_Pdf::load($pdfPath);

echo $pdf->properties['Title'] . "\n";
echo $pdf->properties['Author'] . "\n";
Run Code Online (Sandbox Code Playgroud)

限制:仅适用于没有加密小于16MB的文件.

  • 似乎从 2019 年 5 月 27 日起,该库不再存在 (3认同)

cbr*_*ino 6

不了解库,但实现相同结果的简单方法可能是打开文件并解析最后一个"endstream"之后的所有内容.

尝试在文本编辑器上打开pdf,解析器不应超过五行.


Ale*_*ino 6

PDF Parser完全符合您的要求,使用非常简单:

$parser = new \Smalot\PdfParser\Parser();
$pdf    = $parser->parseFile('document.pdf');
$text   = $pdf->getDetails();
Run Code Online (Sandbox Code Playgroud)

您可以在演示页面中尝试它.