我想知道Scrapy如何过滤那些被抓取的网址?它是否存储了所有被抓取的网址crawled_urls_list,当它获得一个新网址时,它会查找列表以检查该网址是否存在?
CrawlSpider的这个过滤部分的代码在哪里(/path/to/scrapy/contrib/spiders/crawl.py)?
非常感谢!
小智 5
默认情况下,scrapy会保留已查看请求的指纹.此列表保存在python集的内存中,并在JOBDIR变量定义的目录中附加文件调用requests.seen.如果重新启动scrapy,文件将重新加载到python集中.控制它的类在scrapy.dupefilter中如果需要不同的行为,可以重载此类.
| 归档时间: |
|
| 查看次数: |
1080 次 |
| 最近记录: |