Ang*_*lLB 7 python selenium scrapy
所以我一直在使用硒来进行刮擦。但我想将所有代码更改为 Scrapy。我唯一不确定的是我正在使用多处理(python 库)来加速我的进程。我研究了很多,但我完全不明白。我发现:Multiprocessing of Scrapy Spiders in Parallel Processes但它对我没有帮助,因为它说它可以用 Twisted 完成,但我还没有找到一个例子。
在其他论坛上,它说 Scrapy 可以与多处理一起工作。
最后一件事,在scrapy中,选项CONCURRENT_REQUESTS(设置)与多处理有一些联系吗?
使用 scrapy 的推荐方法是不要在正在运行的蜘蛛中使用多处理。
更好的选择是使用各自独立的输入调用多个scrapy作业。
Scrapy工作本身非常快IMO,当然,你总是可以走得更快,因为你提到的特殊设置CONCURRENT_REQUESTS,CONCURRENT_REQUESTS_PER_DOMAIN,DOWNLOAD_DELAY等,但基本上这是因为scrapy是异步的,这意味着它不会等待请求完成时间表并继续处理剩余的任务(安排更多请求、解析响应等)
在CONCURRENT_REQUESTS没有与多处理的连接。由于是异步的,这主要是一种“限制”可以调度多少请求的速度的方法。
| 归档时间: |
|
| 查看次数: |
2340 次 |
| 最近记录: |