小编Nic*_*zak的帖子

无法使用 Scrapy 抓取网站?

我还在尝试从这种URL中抓取搜索结果,这是一份中文在线报纸的搜索结果。Scrapy 适用于一些请求,然后我得到以下终端输出。

2019-12-19 11:56:19 [scrapy.spidermiddlewares.httperror] INFO: 忽略响应 <461 http://so.news.cn/getNews?keyword=%E7%BE%8E%E5%9B%BD&curPage= 55&sortField=0&searchFields=0&lang=cn >:HTTP状态码未处理或不允许

如果我添加延迟似乎效果更好,但是速度很慢。这是因为我被该网站屏蔽了 - 我能做些什么吗?我目前没有在 settings.py 中定义任何特殊的用户代理。我尝试过使用scrapy-UserAgent来轮换用户代理,但它似乎不起作用。VPN 有帮助吗?

谢谢

python user-agent scrapy web-scraping

2
推荐指数
1
解决办法
6458
查看次数

标签 统计

python ×1

scrapy ×1

user-agent ×1

web-scraping ×1