我正在尝试阅读附加到任意PDF的元数据:标题,作者,主题和关键字.
是否有可以读取PDF元数据的PHP库,最好是开源的?如果是,或者如果没有,那么如何使用库(或缺少库)来提取元数据?
为了清楚起见,我对创建或修改PDF或其元数据不感兴趣,我不关心PDF主体.我看过很多库,包括FPDF(每个人似乎都推荐),但它似乎只是用于PDF创建,而不是元数据提取.
小智 8
Zend框架包含Zend_Pdf,这使得这非常简单:
$pdf = Zend_Pdf::load($pdfPath);
echo $pdf->properties['Title'] . "\n";
echo $pdf->properties['Author'] . "\n";
Run Code Online (Sandbox Code Playgroud)
限制:仅适用于没有加密小于16MB的文件.
PDF Parser完全符合您的要求,使用非常简单:
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseFile('document.pdf');
$text = $pdf->getDetails();
Run Code Online (Sandbox Code Playgroud)
您可以在演示页面中尝试它.
| 归档时间: |
|
| 查看次数: |
26022 次 |
| 最近记录: |