我还在尝试从这种URL中抓取搜索结果,这是一份中文在线报纸的搜索结果。Scrapy 适用于一些请求,然后我得到以下终端输出。
2019-12-19 11:56:19 [scrapy.spidermiddlewares.httperror] INFO: 忽略响应 <461 http://so.news.cn/getNews?keyword=%E7%BE%8E%E5%9B%BD&curPage= 55&sortField=0&searchFields=0&lang=cn >:HTTP状态码未处理或不允许
如果我添加延迟似乎效果更好,但是速度很慢。这是因为我被该网站屏蔽了 - 我能做些什么吗?我目前没有在 settings.py 中定义任何特殊的用户代理。我尝试过使用scrapy-UserAgent来轮换用户代理,但它似乎不起作用。VPN 有帮助吗?
谢谢