如果条件为真,则有可能在特定情况下停止抓取(例如scrap_item_id == predefine_value).我的问题类似于Scrapy - 如何识别已经刮掉的网址,但是我想在发现最后一个被抓住的项目后"强迫"我的scrapy蜘蛛停止爬行.
出于开发目的,我想在第一个异常(在蜘蛛或管道中)发生时立即停止所有scrapy爬行活动.
有什么建议?
我需要从Scrapy Pipeline筹集CloseSpider。要么将某些参数从Pipeline返回到Spider进行加注。
例如,如果日期已经存在,请引发CloseSpider:
raise CloseSpider('Already been scraped:' + response.url)
Run Code Online (Sandbox Code Playgroud)
有没有办法做到这一点?