我正在尝试编写一个非常简单的网站爬虫来列出 URL 以及 200、301、302 和 404 http 状态代码的引用和状态代码。
事实证明,Scrapy 工作得很好,我的脚本正确使用它来抓取网站,并且可以毫无问题地列出带有 200 和 404 状态代码的 url。
问题是:我找不到如何让scrapy跟随重定向并解析/输出它们。我可以让一个工作,但不能两个都工作。
到目前为止我尝试过的:
设置meta={'dont_redirect':True}和设置REDIRECTS_ENABLED = False
将 301、302 添加到 handle_httpstatus_list
更改重定向中间件文档中指定的设置
阅读重定向中间件代码以获得洞察力
以上所有的各种组合
其他随机的东西
如果你想看一下代码,这里是公共仓库。