小编gnu_red的帖子

无法让 Scrapy 解析并跟踪 301、302 重定向

我正在尝试编写一个非常简单的网站爬虫来列出 URL 以及 200、301、302 和 404 http 状态代码的引用和状态代码。

事实证明，Scrapy 工作得很好，我的脚本正确使用它来抓取网站，并且可以毫无问题地列出带有 200 和 404 状态代码的 url。

问题是：我找不到如何让scrapy跟随重定向并解析/输出它们。我可以让一个工作，但不能两个都工作。

到目前为止我尝试过的：

设置meta={'dont_redirect':True}和设置REDIRECTS_ENABLED = False
将 301、302 添加到 handle_httpstatus_list
更改重定向中间件文档中指定的设置
阅读重定向中间件代码以获得洞察力
以上所有的各种组合
其他随机的东西

如果你想看一下代码，这里是公共仓库。

5
推荐指数

1
解决办法

8347
查看次数

标签统计