python beautifulsoup:lxml html.parser

Ano*_*mus 1 python lxml beautifulsoup html-parser

我必须使用beautifulsoup,但是我不知道我必须使用哪个解析器。我对lxml和html.parser犹豫不决,或者为什么不两者都选择。如何知道网页是否符合lxml?如何知道网页是否符合html解析器?非常感谢

ale*_*cxe 6

没有银弹。不同的HTML解析器的行为有所不同,因此您应该选择一个适合您特定页面的解析器。在这种情况下,正常工作意味着您可以获取所需的数据。

lxml解析器通常更快,html5lib是最宽松的解析器-如果要解析的HTML格式损坏或格式不正确,则这种区别将是有意义的。html.parser是内置的,如果有问题可以帮助避免额外的依赖关系。这是一个相关表,突出显示了差异。