小编gnu*_*red的帖子

无法让 Scrapy 解析并跟踪 301、302 重定向

我正在尝试编写一个非常简单的网站爬虫来列出 URL 以及 200、301、302 和 404 http 状态代码的引用和状态代码。

事实证明,Scrapy 工作得很好,我的脚本正确使用它来抓取网站,并且可以毫无问题地列出带有 200 和 404 状态代码的 url。

问题是:我找不到如何让scrapy跟随重定向并解析/输出它们。我可以让一个工作,但不能两个都工作。

到目前为止我尝试过的:

  • 设置meta={'dont_redirect':True}和设置REDIRECTS_ENABLED = False

  • 将 301、302 添加到 handle_httpstatus_list

  • 更改重定向中间件文档中指定的设置

  • 阅读重定向中间件代码以获得洞察力

  • 以上所有的各种组合

  • 其他随机的东西

如果你想看一下代码,这里是公共仓库

python scrapy

5
推荐指数
1
解决办法
8347
查看次数

标签 统计

python ×1

scrapy ×1