Pau*_*aul 2 http web-crawler http-headers http-head
我一直在测试我编写的一个小应用程序,它基本上会执行http HEAD请求以检查页面是否存在,重定向等等.我注意到有些页面对HEAD的响应与GET请求不同.例如:
curl -I http://www.youtube.com/bbcpersian
Run Code Online (Sandbox Code Playgroud)
返回404.肯定会有.一些(相当重要的)网站甚至返回500个错误以响应HEAD - 我猜这不是故意的.
所以我的问题是:
虽然表现得像这样的页面数量很少,但每个误报最终都是人工调查的,这导致了大量的浪费.
经过一段时间后,我可以回答自己的问题:
| 归档时间: |
|
| 查看次数: |
870 次 |
| 最近记录: |