在Scrapy中爬行的顺序

Question

我在scrapy中写了一个基本的CrawlSpider,但我想了解网址被抓取的顺序是什么 - FIFO/LIFO？

我希望抓取工具抓取起始网址页面中的所有链接,然后转到其他似乎不是订单的网址.

我怎样才能做到这一点？

Answer 1

默认情况下,Scrapy使用LIFO队列来存储挂起的请求,这基本上意味着它以DFO顺序进行爬网.在大多数情况下,此订单更方便.如果您确实想要以真正的BFO顺序进行爬网,可以通过设置以下设置来执行此操作:

 DEPTH_PRIORITY = 1
 SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
 SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'