Pro*_*Ant 2 python loops web-crawler scrapy
我正在使用网络抓取框架scrapy来挖掘某些网站的数据.我正在尝试使用CrawlSpider,页面有一个"后退"和"下一步"按钮.URL采用格式
www.qwerty.com/###
Run Code Online (Sandbox Code Playgroud)
其中###是每次按下下一个按钮时递增的数字.如何格式化规则以便不会发生无限循环.
这是我的规则:
rules = (
Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791'),follow=True,callback='parse_item',
),
)
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
2442 次 |
最近记录: |