用于解析div标签的python正则表达式

Question

关于python正则表达式的问题.

我想匹配div块

<div class="leftTail"><ul class="hotnews">any news stuff</ul></div>

我在想一个像这样的模式

p = re.compile(r'<div\s+class=\"leftTail\">[^(div)]+</div>')

但它似乎无法正常工作

另一种模式

p = re.compile(r'<div\s+class=\"leftTail\">[\W|\w]+</div>')

我得到的东西比我想的要多得多,直到文件中的最后一个标签才能得到所有东西.

谢谢你的帮助

Answer 1

您可能想要考虑毕业到实际的HTML解析器.我建议你试试美丽的汤.HTML有许多疯狂的格式化方式,正则表达式可能无法始终正常工作,即使您正确编写它们也是如此.

Answer 2

尝试这个：

p = re.compile(r'<div\s+class=\"leftTail\">.*?</div>')