在Python中解析HTML

And*_*ker 27 python html-parsing

如果我不能使用BeautifulSoup或lxml,解析HTML的最佳选择是什么?我有一些使用SGMLlib的代码,但它有点低级,现在已经弃用了.

我更喜欢它可能会造成一些格式错误的HTML,尽管我很确定大部分输入都会非常干净.

And*_*nko 10

Python有一个原生的HTML解析器,但是尼克建议的Tidy包装器也可能是一个可靠的选择.Tidy是一个非常常见的库,(用C语写的是吗?)