小智 37
我还可以推荐BeautifulSoup,它是一个易于使用的html解析器.在那里你会做类似的事情:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
all_text = ''.join(soup.findAll(text=True))
Run Code Online (Sandbox Code Playgroud)
这样您就可以从html文档中获取所有文本.
Jer*_*bin 10
有一个很棒的python库叫做漂白剂.下面的调用将删除所有html标记,保留其他所有内容(但不删除不可见的标记内的内容).
bleach.clean(thestring, tags=[], attributes={}, styles=[], strip=True)
Run Code Online (Sandbox Code Playgroud)
Gui*_*ois -4
一个非常简单的正则表达式是:
import re
notag = re.sub("<.*?>", " ", html)
Run Code Online (Sandbox Code Playgroud)
此解决方案的缺点是它不会删除 javascript 或 css,而仅删除标签。
| 归档时间: |
|
| 查看次数: |
16624 次 |
| 最近记录: |