小编Al_*_*C91的帖子

PyPDF2 不会从 PDF 中提取所有文本

我正在尝试使用 PyPDF2从 PDF ( https://www.sec.gov/litigation/admin/2015/34-76574.pdf ) 中提取文本，我得到的唯一结果是以下字符串：

b''

Run Code Online (Sandbox Code Playgroud)

这是我的代码：

import PyPDF2
import urllib.request
import io

url = 'https://www.sec.gov/litigation/admin/2015/34-76574.pdf'
remote_file = urllib.request.urlopen(url).read()
memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfFileReader(memory_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(1)
page_content = page.extractText()
print(page_content.encode('utf-8'))

Run Code Online (Sandbox Code Playgroud)

此代码在我正在使用的一些 PDF 上正常工作（例如https://www.sec.gov/litigation/admin/2016/34-76837-proposed-amended-distribution-plan.pdf），但是其他像上面的文件不起作用。知道出了什么问题吗？

python pdf pypdf python-3.x

Al_*_*C91

lucky-day

6
推荐指数

2
解决办法

3万
查看次数