提取PDF的TOC?

Chr*_*ris 22 php pdf xpdf

我在SWFTools和XPDF的帮助下将pdf提取到images/swf和文本中.我在PDF脚本中运行这些文件.

但是现在我想进一步尝试从PDF中获取TOC是否可以提取这些信息?

Bri*_*acy 12

我发现了一点点搜索.它看起来很有希望.

PDFMiner:http://www.unixuser.org/~euske/python/pdfminer/index.html

注意:该工具是基于Python的,但您应该能够通过shell访问使用该工具.或者,您可以从源代码本身收集一些有用的信息,因为项目是开源的.

来自网站:

dumppdf.py

dumppdf.py以伪XML格式转储PDF文件的内部内容.该程序主要用于调试目的,但也可以提取一些有意义的内容(如图像).

例子:

$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)
Run Code Online (Sandbox Code Playgroud)

  • `dumppdf -T 文件.pdf | grep \<outline` 提供了一个很好读的内容表。(`dumppdf -T file.pdf | grep -E '\<outline|pageno'` 还给出页码) (2认同)

小智 6

我尝试过dump.pdf -T,但它不适用于某些PDF文件.

mutool我刚刚找到了MuPDF的另一个工具.我不知道这是否比dump.pdf更好但是在PDF文件上工作dump.pdf会抛出错误.

以下是如何使用mutool提取TOC

mutool show {your-pdf-file} outline

MuPDF