使用Python或其他方法从PDF中提取指向另一个PDF中页面的链接

Question

使用Python或其他方法从PDF中提取指向另一个PDF中页面的链接

我有5个PDF文件,每个文件都有指向另一个PDF文件中不同页面的链接.这些文件是大型PDF的每个目录(每个约1000页),使手动提取成为可能,但非常痛苦.到目前为止,我已经尝试在Acrobat Pro中打开该文件,我可以右键单击每个链接并查看它指向的页面,但我需要以某种方式提取所有链接.我不反对不得不对链接进行大量的进一步解析,但我似乎无法以任何方式将它们拉出来.我试图将Acrobat Pro中的PDF导出为HTML或Word,但这两种方法都没有维护链接.

我的智慧结束了,任何帮助都会很棒.我很乐意使用Python或其他一系列语言

Answer 1

laf*_*ras 5

使用pyPdf寻找URI ,

import pyPdf

f = open('TMR-Issue6.pdf','rb')

pdf = pyPdf.PdfFileReader(f)
pgs = pdf.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for pg in range(pgs):

    p = pdf.getPage(pg)
    o = p.getObject()

    if o.has_key(key):
        ann = o[key]
        for a in ann:
            u = a.getObject()
            if u[ank].has_key(uri):
                print u[ank][uri]

Run Code Online (Sandbox Code Playgroud)

给,

http://www.augustsson.net/Darcs/Djinn/
http://plato.stanford.edu/entries/logic-intuitionistic/
http://citeseer.ist.psu.edu/ishihara98note.html

etc...

Run Code Online (Sandbox Code Playgroud)

我找不到一个链接到另一个pdf的文件,但我怀疑URI字段应该包含表单的URI file:///myfiles

归档时间：	14 年，8 月前
查看次数：	3862 次
最近记录：	8 年，7 月前