jbo*_*chi 16

你应该用HTMLParsermodule来解码html:

>>> import HTMLParser
>>> h= HTMLParser.HTMLParser()
>>> h.unescape('alpha < β')
u'alpha < \u03b2'
Run Code Online (Sandbox Code Playgroud)

要转义HTML,cgi模块很好:

>>> cgi.escape(u'<a>bá</a>').encode('ascii', 'xmlcharrefreplace')
'&lt;a&gt;b&#225;&lt;/a&gt;
Run Code Online (Sandbox Code Playgroud)