我正在尝试使用 PyPDF2从 PDF ( https://www.sec.gov/litigation/admin/2015/34-76574.pdf ) 中提取文本,我得到的唯一结果是以下字符串:
b''
Run Code Online (Sandbox Code Playgroud)
这是我的代码:
import PyPDF2
import urllib.request
import io
url = 'https://www.sec.gov/litigation/admin/2015/34-76574.pdf'
remote_file = urllib.request.urlopen(url).read()
memory_file = io.BytesIO(remote_file)
read_pdf = PyPDF2.PdfFileReader(memory_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(1)
page_content = page.extractText()
print(page_content.encode('utf-8'))
Run Code Online (Sandbox Code Playgroud)
此代码在我正在使用的一些 PDF 上正常工作(例如https://www.sec.gov/litigation/admin/2016/34-76837-proposed-amended-distribution-plan.pdf),但是其他像上面的文件不起作用。知道出了什么问题吗?