使用BeautifulSoup从文本中删除标记

Question

使用BeautifulSoup从文本中删除标记

很多问题在这里有类似的标题,但我试图从汤对象本身删除标签.

我有一个页面,其中包含div:

<div id="content">
I want to keep this<br /><div id="blah">I want to remove this</div>
</div>

Run Code Online (Sandbox Code Playgroud)

我可以选择<div id="content">,soup.find('div', id='content')但我想删除<div id="blah">它.

Answer 1

sty*_*ane 11

extract如果要从树中删除标记或字符串,可以使用.

In [13]: soup = BeautifulSoup("""<div id="content">
I want to keep this<br /><div id="blah">I want to remove this</div>
</div>""")

In [14]: soup = BeautifulSoup("""<div id="content">
   ....: I want to keep this<br /><div id="blah">I want to remove this</div>
   ....: </div>""")

In [15]: blah = soup.find(id='blah')

In [16]: _ = blah.extract()

In [17]: soup
Out[17]: 
<html><body><div id="content">
I want to keep this<br/>
</div></body></html>

Run Code Online (Sandbox Code Playgroud)

Answer 2

unu*_*tbu 6

该Tag.decompose方法tag从树中删除.所以找到div标签:

div = soup.find('div', {'id':'content'})

Run Code Online (Sandbox Code Playgroud)

循环所有的孩子,但第一个:

for child in list(div)[1:]:

Run Code Online (Sandbox Code Playgroud)

并尝试分解孩子们:

    try:
        child.decompose()
    except AttributeError: pass

Run Code Online (Sandbox Code Playgroud)

import bs4 as bs

content = '''<div id="content">
I want to keep this<br /><div id="blah">I want to remove this</div>
</div>'''
soup = bs.BeautifulSoup(content)
div = soup.find('div', {'id':'content'})
for child in list(div)[1:]:
    try:
        child.decompose()
    except AttributeError: pass
print(div)

Run Code Online (Sandbox Code Playgroud)

产量

<div id="content">
I want to keep this
</div>

Run Code Online (Sandbox Code Playgroud)

使用lxml的等价物将是

import lxml.html as LH

content = '''<div id="content">
I want to keep this<br /><div id="blah">I want to remove this</div>
</div>'''
root = LH.fromstring(content)

div = root.xpath('//div[@id="content"]')[0]
for child in div:
    div.remove(child)
print(LH.tostring(div))

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，11 月前
查看次数：	11708 次
最近记录：	10 年，11 月前