LinkExtractor和SgmlLinkExtractor之间的区别

Kri*_*shh 6 python scrapy web-scraping

我是scrapy框架的新手,我看过一些教程使用LinkExtractors和一些使用SgmlLinkExtractor.我试图寻找两者的差异/利弊,但结果并不令人满意.

有人能告诉我两者之间的区别吗?我们什么时候应该使用上述提取器?

谢谢!

ale*_*cxe 11

您无法找到对什么的引用的问题SgmlLinkExtractor是它现在弃用(相关变更集).你可以在这里找到SgmlLinkExtractor定义- 在Scrapy 0.24文档中.

而且,你不应该再使用SgmlLinkExtractor了--Scrapy现在只留下一个链接提取器 - 别名指向的LxmlLinkExtractor那个LinkExtractor.

  • 至于差异,`SgmlLinkExtractor`是基于[`sgmllib.SGMLParser`](https://docs.python.org/2/library/sgmllib.html)(从python 2.6开始不推荐使用sgml`模块,在Python3中不可用),而默认的“ LinkExtractor”是在“ lxml”之上实现的,它速度更快且维护得很好。 (2认同)