我正在使用Beautiful Soup 3解析一些HTML,但它包含HTML实体,Beautiful Soup 3不会自动为我解码:
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<p>£682m</p>")
>>> text = soup.find("p").string
>>> print text
£682m
Run Code Online (Sandbox Code Playgroud)
我怎样才能解码HTML实体中text
获得"£682m"
,而不是"£682m"
.
有没有人知道在Python中使用HTML实体代码(例如<
&
)将字符串转换为普通字符串(例如<&)的简单方法?
cgi.escape()
将逃脱字符串(很差),但没有unescape()
.