我正在使用Beautiful Soup 3解析一些HTML,但它包含HTML实体,Beautiful Soup 3不会自动为我解码:
>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<p>£682m</p>")
>>> text = soup.find("p").string
>>> print text
£682m
Run Code Online (Sandbox Code Playgroud)
我怎样才能解码HTML实体中text获得"£682m",而不是"£682m".
可能重复:
如何在Python中将HTML实体转换为Unicode,反之亦然?
print u'<'
Run Code Online (Sandbox Code Playgroud)
我该怎么打印 <
print '>'
Run Code Online (Sandbox Code Playgroud)
我该怎么打印 >
我使用BeautifulSoup来处理我通过REST API收集的XML文件.
响应包含HTML代码,但BeautifulSoup可以转义所有HTML标记,因此可以很好地显示.
不幸的是我需要HTML代码.
我将如何继续将转义的HTML转换为正确的标记?
非常感谢帮助!
是否有标准,最好是Pythonic,将&#xxxx;符号转换为正确的unicode字符串?
例如,
מפגשי
Run Code Online (Sandbox Code Playgroud)
应转换为:
?????
Run Code Online (Sandbox Code Playgroud)
它可以很容易地完成 - 使用字符串操作,但我想知道是否有一个标准的库.