在python中html解析和Web爬行之间的区别是多少？

Question

我需要从我的django网站上的网站获取一些数据.现在我很困惑我是否应该使用python解析库或网络爬行库.搜索引擎库是否属于同一类别

我想知道这两者之间有多大区别,如果我想在我的网站中使用这些功能,我应该使用它们

Answer 1

如果你可以逃脱背景网络爬行使用scrapy.如果需要立即抓取一些东西使用html5lib(更健壮)或lxml(更快).如果您要稍后执行,请使用awesome 请求库.我会避免使用BeautifulSoup,mechanize,urllib2,httplib.

@Mandx BeautifulSoup在牙齿上很长,一段时间没有得到积极开发,笔者表达了对持续发展缺乏兴趣.html5lib/lxml是今天更好的选择.机械化的记录很少,我一般都看到人们比其他任何事情更困惑.另一方面,Scrapy有很好的文档记录,并且有一个很好的API.请求是一个更加pythonic,更容易使用,更少拉毛的http库比替代品.但是,嘿,不要相信我的话,检查一下吧! (4认同)