在Python中从PDF提取超链接

Ran*_*ser 3 python pdf hyperlink pypdf pdfminer

我有一个带有一些超链接的PDF文档,我需要从pdf中提取所有文本。我使用了http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/中的PDFMiner库和代码 来提取文本。但是,它不会提取超链接。

例如,我有一段文字说出Check this link out,并附有链接。我能够提取单词Check this link out,但是我真正需要的是超链接本身,而不是单词。

我该怎么做呢?理想情况下,我更喜欢用Python来做,但是我也愿意用任何其他语言来做。

我看过了itextsharp,但是还没有使用过。我正在上运行Ubuntu,希望对您有所帮助。

小智 10

这是一个老问题,但似乎很多人都在看它(包括我在尝试回答这个问题时),所以我分享我想出的答案。作为旁注,学习如何使用 Python 调试器 (pdb) 很有帮助,因此您可以即时检查这些对象。

可以使用 PDFMiner 获取超链接。复杂的是(就像很多关于 PDF 的内容一样),链接注释和链接文本之间实际上没有关系,只是它们都位于页面的同一区域。

这是我用来在 PDFPage 上获取链接的代码

annotationList = []
if page.annots:
    for annotation in page.annots.resolve():
        annotationDict = annotation.resolve()
        if str(annotationDict["Subtype"]) != "/Link":
            # Skip over any annotations that are not links
            continue
        position = annotationDict["Rect"]
        uriDict = annotationDict["A"].resolve()
        # This has always been true so far.
        assert str(uriDict["S"]) == "/URI"
        # Some of my URI's have spaces.
        uri = uriDict["URI"].replace(" ", "%20")
        annotationList.append((position, uri))
Run Code Online (Sandbox Code Playgroud)

然后我定义了一个函数,如:

def getOverlappingLink(annotationList, element):
    for (x0, y0, x1, y1), url in annotationList:
        if x0 > element.x1 or element.x0 > x1:
            continue
        if y0 > element.y1 or element.y0 > y1:
            continue
        return url
    else:
        return None
Run Code Online (Sandbox Code Playgroud)

我曾经搜索过我之前在页面上找到的 annotationList,以查看是否有任何超链接与我在页面上检查的 LTTextBoxHorizo​​ntal 占据相同的区域。

就我而言,由于 PDFMiner 在文本框中将太多文本合并在一起,我遍历了每个文本框的 _objs 属性并查看了所有 LTTextLineHorizo​​ntal 实例,以查看它们是否与任何注释位置重叠。


小智 7

Ashwin's Answer 的略微修改版本:

import PyPDF2
PDFFile = open("file.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if uri in u[ank].keys():
                print(u[ank][uri])
Run Code Online (Sandbox Code Playgroud)


小智 5

我认为使用PyPDF可以做到。如果要从PDF中提取链接。我不确定我从哪里得到的,但是它作为其他内容的一部分驻留在我的代码中。希望这可以帮助:

PDFFile = open('File Location','rb')

PDF = pyPdf.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):

    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()

    if pageObject.has_key(key):
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if u[ank].has_key(uri):
            print u[ank][uri]
Run Code Online (Sandbox Code Playgroud)

我希望这会在您的PDF中提供链接。PS:我还没有广泛尝试过。

  • 这似乎工作正常,但有什么方法可以提取包含超链接的文本并修改它? (2认同)

Ken*_*enS 0

超链接实际上是一个注释,因此您需要处理注释而不是“提取文本”。我怀疑如果您真的很绝望(并且想在 PostScript 中轻松编程),您将需要使用 itextsharp、MuPDF 或 Ghostscript 等库。

我认为处理查找 LNK 类型的注释相对容易。