将Unicode与字符串连接:print'£'+'1'有效,但打印'£'+ u'1'会抛出UnicodeDecodeError

Question

将Unicode与字符串连接:print'£'+'1'有效,但打印'£'+ u'1'会抛出UnicodeDecodeError

tex*_*ood 9 python unicode string-concatenation

我观察到以下情况:

>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1

Run Code Online (Sandbox Code Playgroud)

为什么'£' + '1'工作但'£' + u'1'不起作用？

我查看了类型:

>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>

Run Code Online (Sandbox Code Playgroud)

这也让我感到困惑.如果'£' + '1'是a str而不是a unicode,为什么它在我的终端上正确打印？它不应该打印出类似的东西'\xc2\xa31'?

为了增加组合,我还观察了以下内容:

>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1

Run Code Online (Sandbox Code Playgroud)

为什么u'£' + '1'不能£正确打印出符号print u'£' + '1'呢？是因为repr在前者使用,而str在后者使用？

另外,在这种情况下如何连接unicode和str工作,但不是在这种'£' + u'1'情况下？

Answer 1

Mar*_*ers 12

您正在混合对象类型.

'£'是一个包含编码数据的字节串.这些字节碰巧代表你的终端或控制台中的井号,既不在这里,也不在那里,它可能与图像中的像素一样多.您将终端或控制台配置为生成并接受UTF-8数据,因此该字节串的实际内容是以十六进制表示的两个字节C2和A3.

u'1'另一方面是Unicode字符串.它是明确的文本数据.如果要将其他数据连接到它,它也应该是Unicode.str如果您尝试执行此操作,Python 2将使用默认的ASCII编解码器自动将字节解码为Unicode.

但是,'£'bytestring不能解码为ASCII.它可以解码为UTF-8; 明确解码字节,因为我们知道正确的编解码器:

print '£'.decode('utf8') + u'1'

Run Code Online (Sandbox Code Playgroud)

将字节写入终端或控制台时,终端或控制台会解释字节并理解它们.如果将unicode对象写入终端,则该sys.stdout对象负责编码,将文本转换为终端或控制台将理解的字节.

这同样适用于输入; 所述sys.stdin流产生字节,当使用Python可以透明地解码u'£'语法来创建一个Unicode对象.您在键盘上键入字符,它由终端或控制台转换为UTF-8字节,并写入Python进行解释.

那么,'\xc2\xa3'用print作品写作是一个快乐的巧合.你可以获取unicode对象,将其编码为不同的编解码器,最后得到垃圾输出:

>>> print u'£1'.encode('latin-1')
?1

Run Code Online (Sandbox Code Playgroud)

我的Mac终端将为£符号写入的数据转换为a ?,因为A3字节(井号的Latin-1代码点)在解释为UTF-8时不会映射到任何内容.

Python从locale.getpreferredencoding()函数中确定终端或控制台编解码器,您可以通过sys.stdout.encoding和sys.stdin.encoding属性观察终端或控制台传达的内容:

>>> import sys
>>> sys.stdout.encoding
'UTF-8'

Run Code Online (Sandbox Code Playgroud)

最后但同样重要的是,您不应将打印与交互模式下解释器回显的表示混淆.解释器显示使用表达式的结果repr()功能,调试工具,试图产生Python的文字符号尽可能使用仅 ASCII字符.对于Unicode值,这意味着使用转义序列反映任何不可打印的非ASCII字符.这使得该值适合于复制和粘贴,而不需要超过支持ASCII的介质.

例如,在可打印范围之外,使用换行符的repr()结果,以及没有专用转义序列的字节的十六进制转义.此外,对于对象,Latin-1范围之外的代码点用和转义序列表示,取决于是否是基本多语言平面的一部分:str\n\xhhunicode\uhhhh\Uhhhhhhhh

>>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji !
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji !

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，4 月前
查看次数：	5013 次
最近记录：	10 年，4 月前