在存储的数据上重播Scrapy蜘蛛

Question

我已经开始使用Scrapy来搜索一些网站.如果我稍后在我的模型中添加一个新字段或更改我的解析函数,我希望能够"重播"下载的原始数据,以便再次删除它.看起来Scrapy能够在一个点上将原始数据存储在重放文件中:

但是这个功能似乎已经在当前版本的Scrapy中被删除了.还有另一种方法来实现这一目标吗？

Answer 1

如果你跑crawl --record=[cache.file] [scraper],你就可以使用了replay [scraper].

或者,你可以缓存与所有的反应HttpCacheMiddleware将其包含在DOWNLOADER_MIDDLEWARES:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 300,
}

如果这样做,每次运行刮刀时,它都会先检查文件系统.

Answer 2

缓存所有http请求和响应以实现恢复爬行。