相关疑难解决方法(0)

如何从内联raw_bytes(而不是文件)中读取PDF文件?

我正在尝试从澳大利亚证券交易所网站创建一个pdf取件器,这将允许我搜索公司制作的所有"公告",并在这些公告的pdf中搜索关键词.

到目前为止,我正在使用请求和PyPDF2获取PDF文件,将其写入我的驱动器然后读取它.但是,我希望能够跳过将PDF文件写入驱动器并读取它的步骤,并直接从获取PDF文件转换为字符串.到目前为止我所拥有的是:

import requests, PyPDF2

url = 'http://www.asx.com.au/asxpdf/20171108/pdf/43p1l61zf2yct8.pdf'
response = requests.get(url)
my_raw_data = response.content

with open("my_pdf.pdf", 'wb') as my_data:
    my_data.write(my_raw_data)


open_pdf_file = open("my_pdf.pdf", 'rb')
read_pdf = PyPDF2.PdfFileReader(open_pdf_file)
num_pages = read_pdf.getNumPages()

ann_text = []
for page_num in range(num_pages):
    if read_pdf.isEncrypted:
        read_pdf.decrypt("")
        print(read_pdf.getPage(page_num).extractText())
        page_text = read_pdf.getPage(page_num).extractText().split()
        ann_text.append(page_text)

    else:
        print(read_pdf.getPage(page_num).extractText())
print(ann_text)
Run Code Online (Sandbox Code Playgroud)

这将从提供​​的URL打印PDF文件中的字符串列表.

只是想知道我是否可以将my_raw_data变量转换为可读字符串?

非常感谢提前!

pdf python-3.x python-requests

8
推荐指数
2
解决办法
2561
查看次数

如何在python中下载pdf文件?

我需要下载类似的东西

str = 'http://query.nytimes.com/mem/archive-free/pdf?res=9A00EEDE1431E13BBC4850DFBF66838A649FDE'
url = urllib2.urlopen(str)
file = open('test.pdf', 'w')
file.write(url.read())
file.close()
Run Code Online (Sandbox Code Playgroud)

它只会创建一个错误的pdf.

我该如何将其写入文件?

python

-5
推荐指数
1
解决办法
7096
查看次数

标签 统计

pdf ×1

python ×1

python-3.x ×1

python-requests ×1