python/scrapy问题:如何避免无限循环

Question

我正在使用网络抓取框架scrapy来挖掘某些网站的数据.我正在尝试使用CrawlSpider,页面有一个"后退"和"下一步"按钮.URL采用格式

www.qwerty.com/###

其中###是每次按下下一个按钮时递增的数字.如何格式化规则以便不会发生无限循环.

这是我的规则:

rules = (
        Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791'),follow=True,callback='parse_item',
    ),
)

Answer 1

不应该发生无限循环.Scrapy将过滤掉重复的网址.