un3*_*33k 3 python screen-scraping mechanize
如果自上次下载以来没有更改页面,我只需要下载该页面怎么办?什么是最好的方法?我可以先获取页面的大小,然后比较决定是否已更改,如果是,我要求下载否则跳过?
我打算用(python)机械化.
请求应该是 HEAD,而不是GET:
9.4头
HEAD方法与GET相同,只是服务器不能在响应中返回消息体.响应HEAD请求的HTTP头中包含的元信息应该与响应GET请求时发送的信息相同.该方法可用于获得关于请求所暗示的实体的元信息,而无需转移实体主体本身.此方法通常用于测试超文本链接的有效性,可访问性和最近的修改.
对于HEAD请求的响应可以是可缓存的,因为响应中包含的信息可以用于从该资源更新先前缓存的实体.如果新的字段值指示缓存的实体从当前实体的不同(如将在内容长度,内容,MD5,ETag的或上次修改的变化来表示),那么缓存必须把缓存条目为陈旧.
请参见此处如何使用mechanize库执行HEAD请求?
| 归档时间: |
|
| 查看次数: |
660 次 |
| 最近记录: |