使用BeautifulSoup获取html剥离脚本和样式标签？

Question

使用BeautifulSoup获取html剥离脚本和样式标签？

Nat*_*han 7 python beautifulsoup python-2.6 html-parsing

我有一个简单的脚本,我将获取一个HTML页面,将其传递给BeautifulSoup以删除所有脚本和样式标记,然后我想将HTML结果传递给另一个方法.是否有捷径可寻？略读BeautifulSoup.py,我还没有看到它.

soup = BeautifulSoup(html)
for script in soup("script"):
    soup.script.extract()

for style in soup("style"):
    soup.style.extract()
contents = soup.html.contents
text = loader.extract_text(contents)

Run Code Online (Sandbox Code Playgroud)

contents = soup.html.contents只获取一个列表,所有内容都在类中定义.是否有一种方法只是在汤操作后返回原始html？或者我只是需要浏览contents列表并将html重新组合在一起,不包括脚本和样式标记？

或者是否有更好的解决方案来实现我想要的？

Answer 1

Joc*_*zel 8

unicode( soup ) 给你html.

你想要的也是这个:

for elem in soup.findAll(['script', 'style']):
    elem.extract()

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，3 月前
查看次数：	4694 次
最近记录：	10 年，3 月前