python beautifulsoup：lxml html.parser

Question

我必须使用beautifulsoup，但是我不知道我必须使用哪个解析器。我对lxml和html.parser犹豫不决，或者为什么不两者都选择。如何知道网页是否符合lxml？如何知道网页是否符合html解析器？非常感谢

Answer 1

没有银弹。不同的HTML解析器的行为有所不同，因此您应该选择一个适合您特定页面的解析器。在这种情况下，正常工作意味着您可以获取所需的数据。

lxml解析器通常更快，html5lib是最宽松的解析器-如果要解析的HTML格式损坏或格式不正确，则这种区别将是有意义的。html.parser是内置的，如果有问题可以帮助避免额外的依赖关系。这是一个相关表，突出显示了差异。