ham*_*guz 48 python unicode w3c urllib character-encoding
我有一个像"Tanım"这样的unicode字符串,它以某种方式被编码为"Tan%u0131m".如何将此编码的字符串转换回原始的unicode.显然urllib.unquote不支持unicode.
Aar*_*paa 68
%uXXXX是一种非标准的编码方案,虽然实际上仍然存在于JavaScript领域,但已被w3c拒绝.
更常见的技术似乎是UTF-8编码字符串,然后%%使用%XX转义结果字节.urllib.unquote支持此方案:
>>> urllib2.unquote("%0a")
'\n'
Run Code Online (Sandbox Code Playgroud)
不幸的是,如果你真的需要支持%uXXXX,你可能不得不推出自己的解码器.否则,简单地UTF-8编码你的unicode然后%转义结果字节可能更为可取.
一个更完整的例子:
>>> u"Tan?m"
u'Tan\u0131m'
>>> url = urllib.quote(u"Tan?m".encode('utf8'))
>>> urllib.unquote(url).decode('utf8')
u'Tan\u0131m'
Run Code Online (Sandbox Code Playgroud)
Mar*_*rot 10
def unquote(text):
def unicode_unquoter(match):
return unichr(int(match.group(1),16))
return re.sub(r'%u([0-9a-fA-F]{4})',unicode_unquoter,text)
Run Code Online (Sandbox Code Playgroud)
如果你绝对必须这样做,我会这样做(我真的同意"非标准"的呼声):
from urllib import unquote
def unquote_u(source):
result = unquote(source)
if '%u' in result:
result = result.replace('%u','\\u').decode('unicode_escape')
return result
print unquote_u('Tan%u0131m')
> Tan?m
Run Code Online (Sandbox Code Playgroud)