我正在经历scrapy的慢爬行速度(大约1页/秒).我正在从aws服务器抓取一个主要网站,所以我不认为它是一个网络问题.Cpu利用率远不及100,如果我开始多个scrapy进程,爬行速度要快得多.
Scrapy似乎抓了一堆页面,然后挂了几秒钟,然后重复.
我试过玩:CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500
但这似乎并没有让针头经过20左右.
我需要查找并监控硬盘驱动器上的所有照片或照片管理器的文件夹.目前我正在天真地这样做:递归遍历,手动将文件夹标记为索引,并重复该过程以捕获添加或移动照片的时间.
问题是文件夹树足够大这是非常昂贵的,所以我正在寻找不同的提示和/或保持低CPU程序的提示.
理想情况下,解决方案不依赖于平台.
编辑:我目前正在使用xulrunner,但可以编译模块做平台特定的东西.
第一次跑步怎么样?除了手动遍历整个文件夹树之外,是否没有解决方案(甚至依赖于平台).