ni8*_*8mr 9 python scrapy web-scraping python-2.7 scrapy-spider
我一直在尝试理解在Web报废中使用BaseSpider和CrawlSpider的概念.我已经阅读了文档.但是在BaseSpider上没有提到.如果有人解释BaseSpider和CrawlSpider之间的差异,对我来说真的很有帮助.
ale*_*cxe 14
BaseSpider是以前存在的东西现在被弃用(从0.22开始) - scrapy.Spider改为使用:
import scrapy
class MySpider(scrapy.Spider):
# ...
Run Code Online (Sandbox Code Playgroud)
scrapy.Spider是最简单的蜘蛛,基本上会访问定义start_urls或返回的URL start_requests().
使用CrawlSpider时,你需要一个"爬行"的行为-提取的联系,并跟随他们:
这是用于抓取常规网站的最常用的蜘蛛,因为它通过定义一组规则为跟踪链接提供了便利的机制.它可能不是最适合您的特定网站或项目,但它在几种情况下足够通用,因此您可以从它开始并根据需要覆盖它以获得更多自定义功能,或者只是实现您自己的蜘蛛.