在Python中提取一些HTML标记值

Question

在Python中提取一些HTML标记值

如何<b>使用正则表达式在Python中获取嵌套HTML标记的值？

<a href="/model.xml?hid=90971&amp;modelid=4636873&amp;show-uid=678650012772883921" class="b-offers__name"><b>LG</b> X110</a>

# => LG X110

Run Code Online (Sandbox Code Playgroud)

Answer 1

Jen*_*ens 7

你没有.

正则表达式不适合处理HTML的嵌套结构.请改用HTML解析器.

Answer 2

Dzi*_*inX 6

不要使用正则表达式来解析HTML.使用像BeautifulSoup这样的HTML解析器.看看它有多容易:

from BeautifulSoup import BeautifulSoup
html = r'<a href="removed because it was too long"><b>LG</b> X110</a>'
soup = BeautifulSoup(html)
print ''.join(soup.findAll(text=True))
# LG X110

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，8 月前
查看次数：	1320 次
最近记录：	8 年，6 月前