a12*_*773 2 python beautifulsoup python-2.7
我刮了一个包含网址的容器,例如:
<a href="url">text</a>
Run Code Online (Sandbox Code Playgroud)
我需要删除所有内容,只保留文字 ...
import urllib2, sys
from bs4 import BeautifulSoup
site = "http://mysite.com"
page = urllib2.urlopen(site)
soup = BeautifulSoup(page)
Run Code Online (Sandbox Code Playgroud)
可能吗?
你可以用Bleach做到这一点
>>> import bleach
>>> bleach.clean('an <script>evil()</script> example')
u'an <script>evil()</script> example'
>>> bleach.linkify('an http://example.com url')
u'an <a href="http://example.com" rel="nofollow">http://example.com</a> url
>>> bleach.delinkify('a <a href="http://ex.mp">link</a>')
u'a link'
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1414 次 |
| 最近记录: |