我正在做一些网页抓取,网站经常使用HTML实体来表示非ascii字符.Python是否有一个实用程序,它接受带有HTML实体的字符串并返回unicode类型?
例如:
我回来了:
ǎ
Run Code Online (Sandbox Code Playgroud)
代表带有音标的"ǎ".在二进制中,这表示为16位01ce.我想将html实体转换为值 u'\u01ce'
有没有人知道在Python中使用HTML实体代码(例如< &)将字符串转换为普通字符串(例如<&)的简单方法?
cgi.escape()将逃脱字符串(很差),但没有unescape().
我需要做一些非常快速的脏输入消毒,我想基本上将所有转换<, >为<, >.
我希望得到相同的结果,'<script></script>'.replace('<', '<').replace('>', '>')而不必多次迭代字符串.我知道maketrans与str.translate(即http://www.tutorialspoint.com/python/string_translate.htm)相关但这仅从1个char转换为另一个char.换句话说,人们做不到这样的事情:
inList = '<>'
outList = ['<', '>']
transform = maketrans(inList, outList)
Run Code Online (Sandbox Code Playgroud)
是否有builtin可以在单次迭代中执行此转换的函数?
我想使用builtin功能而不是外部模块.我已经知道了Bleach.