小编Nic*_*zak的帖子

无法使用 Scrapy 抓取网站？

我还在尝试从这种URL中抓取搜索结果，这是一份中文在线报纸的搜索结果。Scrapy 适用于一些请求，然后我得到以下终端输出。

2019-12-19 11:56:19 [scrapy.spidermiddlewares.httperror] INFO: 忽略响应 <461 http://so.news.cn/getNews?keyword=%E7%BE%8E%E5%9B%BD&curPage= 55&sortField=0&searchFields=0&lang=cn >：HTTP状态码未处理或不允许

如果我添加延迟似乎效果更好，但是速度很慢。这是因为我被该网站屏蔽了 - 我能做些什么吗？我目前没有在 settings.py 中定义任何特殊的用户代理。我尝试过使用scrapy-UserAgent来轮换用户代理，但它似乎不起作用。VPN 有帮助吗？

谢谢

python user-agent scrapy web-scraping

Nic*_*zak

lucky-day

2
推荐指数

1
解决办法

6458
查看次数

标签统计

python ×1

scrapy ×1

user-agent ×1

web-scraping ×1

无法使用 Scrapy 抓取网站？

标签 统计

小编Nic_zak的帖子

标签统计