我们只能获取网页标题信息而不是正文吗？(机械化)

Question

我们只能获取网页标题信息而不是正文吗？(机械化)

un3*_*33k 3 python screen-scraping mechanize

如果自上次下载以来没有更改页面,我只需要下载该页面怎么办？什么是最好的方法？我可以先获取页面的大小,然后比较决定是否已更改,如果是,我要求下载否则跳过？

我打算用(python)机械化.

Answer 1

请求应该是 HEAD,而不是GET:

9.4头

HEAD方法与GET相同,只是服务器不能在响应中返回消息体.响应HEAD请求的HTTP头中包含的元信息应该与响应GET请求时发送的信息相同.该方法可用于获得关于请求所暗示的实体的元信息,而无需转移实体主体本身.此方法通常用于测试超文本链接的有效性,可访问性和最近的修改.

对于HEAD请求的响应可以是可缓存的,因为响应中包含的信息可以用于从该资源更新先前缓存的实体.如果新的字段值指示缓存的实体从当前实体的不同(如将在内容长度,内容,MD5,ETag的或上次修改的变化来表示),那么缓存必须把缓存条目为陈旧.

请参见此处如何使用mechanize库执行HEAD请求？

归档时间：	15 年，7 月前
查看次数：	660 次
最近记录：	14 年，7 月前