BaseSpider和CrawlSpider之间的区别

Question

我一直在尝试理解在Web报废中使用BaseSpider和CrawlSpider的概念.我已经阅读了文档.但是在BaseSpider上没有提到.如果有人解释BaseSpider和CrawlSpider之间的差异,对我来说真的很有帮助.

Answer 1

BaseSpider是以前存在的东西现在被弃用(从0.22开始) - scrapy.Spider改为使用:

import scrapy

class MySpider(scrapy.Spider):
    # ...

scrapy.Spider是最简单的蜘蛛,基本上会访问定义start_urls或返回的URL start_requests().

使用CrawlSpider时,你需要一个"爬行"的行为-提取的联系,并跟随他们:

这是用于抓取常规网站的最常用的蜘蛛,因为它通过定义一组规则为跟踪链接提供了便利的机制.它可能不是最适合您的特定网站或项目,但它在几种情况下足够通用,因此您可以从它开始并根据需要覆盖它以获得更多自定义功能,或者只是实现您自己的蜘蛛.