我将如何使用Python计算网页(url)的大小.我尝试了urllib2并抓住了内容长度标题,但它不存在.
import urllib2
url = 'http://www.google.com/'
r = urllib2.urlopen(url)
#Not sure what to do from here
Run Code Online (Sandbox Code Playgroud)
当你使用时urlopen,你将要求整个内容(一个HTTP GET请求),所以一旦你走了那么寻找可选的内容长度标题并不是那么有用(没关系,节省你一些时间和内存,但是你已经在服务器和网络上施加了可避免的负载.然而,由于现有的回答表明,在len的read()的的urlopen的结果是,将工作,即使内容长度丢失的方式.
唉,urllib2不支持HEAD http方法.要尝试HEAD,你必须使用较低级别的模块httplib的(做一个连接到服务器,调用它的request('HEAD', url)方法,调用它getresponse获得一个HttpResponse对象,调用getheader在后一种方法来获取内容长度标题......你看看为什么我说模块是低级别的;-).如果你正在处理非常大的页面和敏感的服务器(那些设置内容长度标题的服务器),这可能是一个重要的优化.
| 归档时间: |
|
| 查看次数: |
3328 次 |
| 最近记录: |