如何在python中取消引用urlencoded unicode字符串?

ham*_*guz 48 python unicode w3c urllib character-encoding

我有一个像"Tanım"这样的unicode字符串,它以某种方式被编码为"Tan%u0131m".如何将此编码的字符串转换回原始的unicode.显然urllib.unquote不支持unicode.

Aar*_*paa 68

%uXXXX是一种非标准的编码方案,虽然实际上仍然存在于JavaScript领域,但已被w3c拒绝.

更常见的技术似乎是UTF-8编码字符串,然后%%使用%XX转义结果字节.urllib.unquote支持此方案:

>>> urllib2.unquote("%0a")
'\n'
Run Code Online (Sandbox Code Playgroud)

不幸的是,如果你真的需要支持%uXXXX,你可能不得不推出自己的解码器.否则,简单地UTF-8编码你的unicode然后%转义结果字节可能更为可取.

一个更完整的例子:

>>> u"Tan?m"
u'Tan\u0131m'
>>> url = urllib.quote(u"Tan?m".encode('utf8'))
>>> urllib.unquote(url).decode('utf8')
u'Tan\u0131m'
Run Code Online (Sandbox Code Playgroud)

  • 'urllib2.unquote'应为'urllib.unquote' (3认同)

Mar*_*rot 10

def unquote(text):
    def unicode_unquoter(match):
        return unichr(int(match.group(1),16))
    return re.sub(r'%u([0-9a-fA-F]{4})',unicode_unquoter,text)
Run Code Online (Sandbox Code Playgroud)


Ali*_*har 6

如果你绝对必须这样做,我会这样做(我真的同意"非标准"的呼声):

from urllib import unquote

def unquote_u(source):
    result = unquote(source)
    if '%u' in result:
        result = result.replace('%u','\\u').decode('unicode_escape')
    return result

print unquote_u('Tan%u0131m')

> Tan?m
Run Code Online (Sandbox Code Playgroud)