如何在Python中使用BeautifulSoup从标记中提取innerHTML

Question

如何在Python中使用BeautifulSoup从标记中提取innerHTML

我正在尝试使用以下代码从标记中提取innerHTML：

theurl = "http://na.op.gg/summoner/userName=Darshan"
thepage = urlopen(theurl)
soup = BeautifulSoup(thepage,"html.parser")
rank = soup.findAll('span',{"class":"tierRank"})

Run Code Online (Sandbox Code Playgroud)

但是我[< span class="tierRank" > Master < /span >]反而得到了。我想显示的只是值“ Master”。

使用soup.get_text代替soup.findall不起作用。

我尝试将.text和添加.string到最后一行的末尾，但这也不起作用。

Answer 1

Mat*_*gan 5

soup.findAll('span',{"class":"tierRank"})返回匹配的元素列表<span class="tierRank">。

您需要该列表中的第一个元素。
您需要innerHtml来自该元素的from，可以通过该decode_contents()方法访问。

全部一起：

rank = soup.findAll('span',{"class":"tierRank"})[0].decode_contents()

Run Code Online (Sandbox Code Playgroud)

这会将“ Master”存储在中rank。

归档时间：	7 年，7 月前
查看次数：	2251 次
最近记录：	7 年，7 月前