Pro*_*Ant 2 python loops web-crawler scrapy
我正在使用网络抓取框架scrapy来挖掘某些网站的数据.我正在尝试使用CrawlSpider,页面有一个"后退"和"下一步"按钮.URL采用格式
www.qwerty.com/###
其中###是每次按下下一个按钮时递增的数字.如何格式化规则以便不会发生无限循环.
这是我的规则:
rules = (
        Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791'),follow=True,callback='parse_item',
    ),
)
| 归档时间: | 
 | 
| 查看次数: | 2442 次 | 
| 最近记录: |