Zan*_*oni 2 html python parsing
我正在寻找一个很好的HTML解析器,如HtmlAgilityPack(开源.NET项目:http://www.codeplex.com/htmlagilitypack),但是用于Python.
有谁知道?
其他人推荐使用BeautifulSoup,但使用lxml要好得多.尽管它的名字,它也用于解析和抓取HTML.它比BeautifulSoup快得多,甚至比BeautifulSoup(他们声名鹊起)更能处理"破碎"的HTML.如果您不想学习lxml API,它也有BeautifulSoup的兼容性API.
没有理由再使用BeautifulSoup了,除非您使用的是Google App Engine或者其他任何不允许使用Python的东西.