在不下载网页的情况下使用Python检查链接是否已死

Question

对于那些知道的人wget,它有一个选项--spider,允许人们在没有实际下载网页的情况下检查链接是否损坏.我想在Python中做同样的事情.我的问题是我有一个我要检查的100'000个链接列表,每天最多一次,每周至少一次.无论如何,这将产生大量不必要的流量.

据我从urllib2.urlopen()文档中了解,它不下载页面而只下载元信息.它是否正确？或者是否有其他方式以一种很好的方式做到这一点？

最好的,
Troels

Answer 1

您应该使用HEAD请求,它会向Web服务器询问没有正文的标头.请参阅如何在Python 2中发送HEAD HTTP请求？