有没有像HtmlAgilityPack(.NET)这样的好的HTML解析器?

Zan*_*oni 2 html python parsing

我正在寻找一个很好的HTML解析器,如HtmlAgilityPack(开源.NET项目:http://www.codeplex.com/htmlagilitypack),但是用于Python.

有谁知道?

Geo*_*Geo 8

像每个人一样使用美丽的汤.

  • 此时BS已经被lxml取代了. (4认同)

aeh*_*lke 8

其他人推荐使用BeautifulSoup,但使用lxml要好得多.尽管它的名字,它也用于解析和抓取HTML.它比BeautifulSoup快得多,甚至比BeautifulSoup(他们声名鹊起)更能处理"破碎"的HTML.如果您不想学习lxml API,它也有BeautifulSoup的兼容性API.

Ian Blicking同意.

没有理由再使用BeautifulSoup了,除非您使用的是Google App Engine或者其他任何不允许使用Python的东西.