小编Al_*_*C91的帖子

PyPDF2 不会从 PDF 中提取所有文本

我正在尝试使用 PyPDF2从 PDF ( https://www.sec.gov/litigation/admin/2015/34-76574.pdf ) 中提取文本,我得到的唯一结果是以下字符串:

b''
Run Code Online (Sandbox Code Playgroud)

这是我的代码:

import PyPDF2
import urllib.request
import io

url = 'https://www.sec.gov/litigation/admin/2015/34-76574.pdf'
remote_file = urllib.request.urlopen(url).read()
memory_file = io.BytesIO(remote_file)

read_pdf = PyPDF2.PdfFileReader(memory_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(1)
page_content = page.extractText()
print(page_content.encode('utf-8'))
Run Code Online (Sandbox Code Playgroud)

此代码在我正在使用的一些 PDF 上正常工作(例如https://www.sec.gov/litigation/admin/2016/34-76837-proposed-amended-distribution-plan.pdf),但是其他像上面的文件不起作用。知道出了什么问题吗?

python pdf pypdf python-3.x

6
推荐指数
2
解决办法
3万
查看次数

标签 统计

pdf ×1

pypdf ×1

python ×1

python-3.x ×1