用于解析div标签的python正则表达式

icn*_*icn 1 python regex

关于python正则表达式的问题.

我想匹配div块

<div class="leftTail"><ul class="hotnews">any news stuff</ul></div>
Run Code Online (Sandbox Code Playgroud)

我在想一个像这样的模式

p = re.compile(r'<div\s+class=\"leftTail\">[^(div)]+</div>')
Run Code Online (Sandbox Code Playgroud)

但它似乎无法正常工作

另一种模式

p = re.compile(r'<div\s+class=\"leftTail\">[\W|\w]+</div>')
Run Code Online (Sandbox Code Playgroud)

我得到的东西比我想的要多得多,直到文件中的最后一个标签才能得到所有东西.

谢谢你的帮助

ste*_*eha 12

您可能想要考虑毕业到实际的HTML解析器.我建议你试试美丽的汤.HTML有许多疯狂的格式化方式,正则表达式可能无法始终正常工作,即使您正确编写它们也是如此.


Rub*_*ias 5

尝试这个:

p = re.compile(r'<div\s+class=\"leftTail\">.*?</div>')
Run Code Online (Sandbox Code Playgroud)