Nat*_*han 7 python beautifulsoup python-2.6 html-parsing
我有一个简单的脚本,我将获取一个HTML页面,将其传递给BeautifulSoup以删除所有脚本和样式标记,然后我想将HTML结果传递给另一个方法.是否有捷径可寻?略读BeautifulSoup.py,我还没有看到它.
soup = BeautifulSoup(html)
for script in soup("script"):
soup.script.extract()
for style in soup("style"):
soup.style.extract()
contents = soup.html.contents
text = loader.extract_text(contents)
Run Code Online (Sandbox Code Playgroud)
contents = soup.html.contents只获取一个列表,所有内容都在类中定义.是否有一种方法只是在汤操作后返回原始html?或者我只是需要浏览contents列表并将html重新组合在一起,不包括脚本和样式标记?
或者是否有更好的解决方案来实现我想要的?
unicode( soup ) 给你html.
你想要的也是这个:
for elem in soup.findAll(['script', 'style']):
elem.extract()
Run Code Online (Sandbox Code Playgroud)