Sam*_*Sam 84 html python beautifulsoup
可以使用BeautifulSoup从HTML中删除脚本标记及其所有内容,还是必须使用正则表达式或其他内容?
Fáb*_*niz 144
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<script>a</script>baba<script>b</script>', 'lxml')
>>> [s.extract() for s in soup('script')]
>>> soup
baba
Run Code Online (Sandbox Code Playgroud)
Abh*_*ari 26
更新了可能需要将来参考的人的答案:正确的答案是.
decompose()
您可以使用不同的方式,但decompose就地工作.
用法示例:
soup = BeautifulSoup('<p>This is a slimy text and <i> I am slimer</i></p>')
soup.i.decompose()
print str(soup)
#prints '<p>This is a slimy text and</p>'
Run Code Online (Sandbox Code Playgroud)
摆脱像'脚本','img'这样的碎片非常有用.
San*_*dri 21
如(官方文档)中所述,您可以使用该extract方法删除与搜索匹配的所有子树.
import BeautifulSoup
a = BeautifulSoup.BeautifulSoup("<html><body><script>aaa</script></body></html>")
[x.extract() for x in a.findAll('script')]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
77594 次 |
| 最近记录: |