我在SWFTools和XPDF的帮助下将pdf提取到images/swf和文本中.我在PDF脚本中运行这些文件.
但是现在我想进一步尝试从PDF中获取TOC是否可以提取这些信息?
Bri*_*acy 12
我发现了一点点搜索.它看起来很有希望.
PDFMiner:http://www.unixuser.org/~euske/python/pdfminer/index.html
注意:该工具是基于Python的,但您应该能够通过shell访问使用该工具.或者,您可以从源代码本身收集一些有用的信息,因为项目是开源的.
来自网站:
dumppdf.py
dumppdf.py以伪XML格式转储PDF文件的内部内容.该程序主要用于调试目的,但也可以提取一些有意义的内容(如图像).
例子:
Run Code Online (Sandbox Code Playgroud)$ dumppdf.py -a foo.pdf (dump all the headers and contents, except stream objects) $ dumppdf.py -T foo.pdf (dump the table of contents) $ dumppdf.py -r -i6 foo.pdf > pic.jpeg (extract a JPEG image)