我曾经偶尔搜索电子商务网页以获取产品价格信息.我有一段时间没有使用使用Scrapy构建的刮刀,昨天试图使用它 - 我遇到了机器人保护问题.
它正在使用CloudFlare的DDOS保护,它基本上使用JavaScript评估过滤掉禁用JS的浏览器(以及因此刮刀).评估函数后,将生成带有计算数字的响应.作为回报,服务发送回两个身份验证cookie,附加到每个请求允许正常爬网站点.以下是它如何工作的描述.
我还发现了一个cloudflare-scrape Python模块,它使用外部JS评估引擎来计算数量并将请求发送回服务器.我不知道如何将它整合到Scrapy中.或者可能有一种更聪明的方式而不使用JS执行?最后,它是一种形式......
我会帮助你.