使用HEAD请求检查网页状态的可靠性

Question

我一直在测试我编写的一个小应用程序,它基本上会执行http HEAD请求以检查页面是否存在,重定向等等.我注意到有些页面对HEAD的响应与GET请求不同.例如:

curl -I http://www.youtube.com/bbcpersian

返回404.肯定会有.一些(相当重要的)网站甚至返回500个错误以响应HEAD - 我猜这不是故意的.

所以我的问题是:

虽然表现得像这样的页面数量很少,但每个误报最终都是人工调查的,这导致了大量的浪费.

Answer 1

经过一段时间后,我可以回答自己的问题:

许多网站"在野外"错误地响应HEAD请求.我有一些建议,一些网站管理员将他们的网站配置为响应除200到HEAD请求之外的任何内容,因为他们认为HEAD请求与坏机器人相关联.我无法验证推理,但我可以说大量网站(或网站上的网页 - 请参阅我在youtube上的原始点)对HEAD请求的响应不正确.
GET 是检查页面确实存在(或不重定向等)的唯一可靠方法.