我正在使用 urllib3 爬网。示例代码:
from urllib3 import PoolManager
pool = PoolManager()
response = pool.request("GET", url)
Run Code Online (Sandbox Code Playgroud)
问题是我可能会偶然发现 url 是一个非常大的文件的下载,我并不介意下载它。
我发现了这个问题 - Link - 它建议使用urlliband urlopen。我不想两次联系服务器。
我想将文件大小限制为 25MB。有没有办法做到这一点urllib3?
我在使用urllib2.urlopen()时只是为了读取头文件,还是实际带回整个网页?
IE是否真的在urlopen调用或read()调用上获取HTML页面?
handle = urllib2.urlopen(url)
html = handle.read()
Run Code Online (Sandbox Code Playgroud)
我问的原因是这个工作流程......
谢谢!
我有一个链接列表,我试图获取其大小以确定每个文件需要多少计算资源。是否可以通过 get 请求或类似的东西来获取文件大小?
以下是其中一个链接的示例:https : //sra-download.ncbi.nlm.nih.gov/traces/sra46/SRR/005150/SRR5273887
谢谢