我正在抓取一个网站并解析一些内容+图像,但即使对于100页左右的简单网站,也需要数小时才能完成这项工作.我正在使用以下设置.任何帮助将受到高度赞赏.我已经看过这个问题了--Scrapy的Scrapyd对调度蜘蛛的速度太慢但是无法收集太多的洞察力.
EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75
Run Code Online (Sandbox Code Playgroud)
你确定网站的回复还行吗?
设置DOWNLOAD_DELAY = 0.75将强制请求是顺序的,并在它们之间添加0.75秒的延迟.如果你删除它,你的抓取肯定会更快,但是,每个域有12个并发请求,请注意你没有过于积极地访问网站.
即使有延迟,也不应该花费数小时,所以这就是为什么我想知道网站是否缓慢或无响应.有些网站会对机器人这样做.
| 归档时间: |
|
| 查看次数: |
3092 次 |
| 最近记录: |