在HTML中提取URL速度更快？[html.parser.HTMLParser]或[re.match]或者其他什么

Question

有时,我想解析HTML以提取URL.
我找到了[html.parser.HTMLParser],[re.match]都可以做到这一点.
我想知道哪个更快.

是否有像jquery解析HTML 的python模块？

如果您有更好的解决方案,请发表评论.

谢谢

lxml非常好.它使工作变得非常简单.

>>>for url in parse(urlopen('http://www.stackoverflow.com')).getroot().find_class('question-hyperlink'): print(url.get('href'))

Answer 1

我强烈建议lxml.根据我的经验,这是最快的.lxml实际上会在内存中生成一棵树.因此,您可以解析/序列化/ ...
另一方面,如果您必须在上述两个选项中进行选择,我建议您使用timeit模块并确定它.