Jas*_*son 6 php pdf metadata ms-office
所以我有文件....
.doc
.docx
.xls
.xlsx
and .pdf
Run Code Online (Sandbox Code Playgroud)
在我的服务器上.
是否有可能(如果是,如何)使用PHP从这些文件中提取元数据?我正在寻找像作家,关键词,标题等的东西......
在office文档中,它是与文档属性一起存储的信息(File ... Properties ... Summary for 2003,Prepare ... Properties for 2007).
在PDF中,它是文档属性中的信息.
这不在 Windows服务器上.
几年前,我在 Linux 系统上使用XPDF成功提取了大量元信息。但现在,我想说Zend_PDF是你最好的选择。我自己没有使用过,但看起来不错,并且承诺提供您需要的一切。似乎也没有库依赖性。
对于 Word .DOC,如果您找不到更好的方法,请插入 OpenOffice 服务器实例/命令行并将文件转换为 ODT(XML 且可解析)。如果不可能提取每个宏的元数据 - 应该可以,但我不知道需要多少工作。此 OpenOffice 论坛条目提供了大量自动转换的起点。
...X 格式是某种 XML,因此应该可以轻松地从中获取元数据。或者,您也应该能够在此处使用 OpenOffice 的转换过滤器(如果它们传输元数据)。