Scrapy爬行速度慢(60页/分钟)

Question

我正在经历scrapy的慢爬行速度(大约1页/秒).我正在从aws服务器抓取一个主要网站,所以我不认为它是一个网络问题.Cpu利用率远不及100,如果我开始多个scrapy进程,爬行速度要快得多.

Scrapy似乎抓了一堆页面,然后挂了几秒钟,然后重复.

我试过玩:CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

但这似乎并没有让针头经过20左右.

Answer 1

您确定可以高速抓取目标网站吗？许多网站实施下载阈值，“一段时间后”开始响应缓慢。