使用python逐行读取pdf文件

Question

使用python逐行读取pdf文件

我使用以下代码读取pdf文件，但它没有读取它。可能是什么原因？

>>> import os 

>>> from PyPDF2 import PdfFileReader, PdfFileWriter

>>> path = "/Users/Rahul/Desktop/Dfiles/"

>>> dirs = os.listdir( path )

>>> directory = "/Users/Rahul/Desktop/Dfiles/106_2015_34-76357.pdf"

>>> f = open(directory, 'rb')

>>> reader = PdfFileReader(f)

>>> contents = reader.getPage(0).extractText().split('\n')

>>> f.close()

>>> print contents

Run Code Online (Sandbox Code Playgroud)

输出是 [u''] 而不是读取内容。

Answer 1

小智 5

import re
from PyPDF2 import PdfFileReader

reader = PdfFileReader("example.pdf")

for page in reader.pages:
    text = page.extractText()
    text_lower = text.lower()
    for line in text_lower:
        if re.search("abc", line):
            print(line)

Run Code Online (Sandbox Code Playgroud)

我用它逐页迭代 pdf 并搜索其中的关键术语并进一步处理。

Answer 2

Tej*_*kar 0

也许这可以帮助你阅读PDF。

import pyPdf
def getPDFContent(path):
    content = ""
    pages = 10
    p = file(path, "rb")
    pdf_content = pyPdf.PdfFileReader(p)
    for i in range(0, pages):
        content += pdf_content.getPage(i).extractText() + "\n"
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，7 月前
查看次数：	12903 次
最近记录：	5 年前