Joh*_*ard 36
如果你打算使用正则表达式:
import re
def striphtml(data):
p = re.compile(r'<.*?>')
return p.sub('', data)
>>> striphtml('<a href="foo.com" class="bar">I Want This <b>text!</b></a>')
'I Want This text!'
Run Code Online (Sandbox Code Playgroud)
Tim*_*ara 10
使用lxml.html.它比BeautifulSoup快得多,原始文本只是一个命令.
>>> import lxml.html
>>> page = lxml.html.document_fromstring('<!DOCTYPE html>...</html>')
>>> page.cssselect('body')[0].text_content()
'...'
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
35831 次 |
| 最近记录: |