编码/解码有什么区别?

ʞɔı*_*ɔıu 174 python string unicode character-encoding python-2.x

我从来不确定我理解str/unicode解码和编码之间的区别.

我知道这str().decode()是因为当你有一个字符串,你知道它有一定的字符编码,给定编码名称它将返回一个unicode字符串.

我知道unicode().encode()根据给定的编码名称将unicode字符转换为字符串.

但我不明白是什么str().encode(),unicode().decode()是为了什么.任何人都可以解释,并可能还纠正我上面遇到的任何其他错误吗?

编辑:

几个答案给出了.encode关于字符串上的内容的信息,但似乎没有人知道.decodeunicode 是做什么的.

小智 105

decodeunicode字符串的方法实际上根本没有任何应用程序(除非你出于某种原因在unicode字符串中有一些非文本数据 - 见下文).我认为这主要是出于历史原因.在Python 3中它完全消失了.

unicode().decode()将执行隐式编码s使用默认(ASCII)编解码器.验证这样:

>>> s = u'ö'
>>> s.decode()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xf6' in position 0:
ordinal not in range(128)

>>> s.encode('ascii')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode character u'\xf6' in position 0:
ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

错误消息完全相同.

对于str().encode()它周围的其他方法-它试图隐式解码s默认编码方式:

>>> s = 'ö'
>>> s.decode('utf-8')
u'\xf6'
>>> s.encode()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0:
ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

像这样使用,str().encode()也是多余的.

后一种方法的另一个应用是有用的:存在与字符集无关的编码,因此可以以有意义的方式应用于8位字符串:

>>> s.encode('zip')
'x\x9c;\xbc\r\x00\x02>\x01z'
Run Code Online (Sandbox Code Playgroud)

不过你是对的:对这两个应用程序的"编码"模糊用法是......尴尬.同样,使用Python 3中的单独bytestring类型,这不再是一个问题.

  • Unicode字符串上的`.decode()`可能很有用,例如,'print u'\\ u0203'.decode('unicode-escape')` (4认同)

cod*_*ape 70

将unicode字符串表示为字节串称为编码.使用u'...'.encode(encoding).

例:

    >>> u'æøå'.encode('utf8')
    '\xc3\x83\xc2\xa6\xc3\x83\xc2\xb8\xc3\x83\xc2\xa5'
    >>> u'æøå'.encode('latin1')
    '\xc3\xa6\xc3\xb8\xc3\xa5'
    >>> u'æøå'.encode('ascii')
    UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-5: 
    ordinal not in range(128)

通常,只要需要将其用于IO,就可以对unicode字符串进行编码,例如通过网络传输,或将其保存到磁盘文件中.

将字符串转换为unicode字符串称为解码.使用unicode('...', encoding)或'...'.解码(编码).

例:

   >>> u'æøå'
   u'\xc3\xa6\xc3\xb8\xc3\xa5' # the interpreter prints the unicode object like so
   >>> unicode('\xc3\xa6\xc3\xb8\xc3\xa5', 'latin1')
   u'\xc3\xa6\xc3\xb8\xc3\xa5'
   >>> '\xc3\xa6\xc3\xb8\xc3\xa5'.decode('latin1')
   u'\xc3\xa6\xc3\xb8\xc3\xa5'

每当从网络或磁盘文件接收字符串数据时,通常会解码一串字节.

我相信在python 3中unicode处理有一些变化,所以上面的python 3可能不正确.

一些好的链接:

  • 你没有回答OP的问题.OP想知道str.encode()和unicode.decode()的作用.你刚才重复了原问题中的陈述. (6认同)

Abg*_*gan 15

anUnicode.encode('encoding')产生一个字符串对象,可以在unicode对象上调用

ASTRING.decode('encoding')产生一个unicode对象,可以在一个字符串上调用,以给定的编码进行编码.


更多解释:

您可以创建一些unicode对象,该对象没有任何编码集.Python在内存中存储的方式无关紧要.你可以搜索它,拆分它并调用你喜欢的任何字符串操作函数.

但有一段时间,当你想将你的unicode对象打印到控制台或某个文本文件时.所以你必须对它进行编码(例如 - 在UTF-8中),你调用encode('utf-8'),你会得到一个内部带有'\ u <someNumber>'的字符串,这是完全可打印的.

然后,再次 - 你想做相反的事情 - 读取UTF-8编码的字符串并将其视为Unicode,因此\ u360将是一个字符,而不是5.然后你解码一个字符串(使用选定的编码)和获得unicode类型的全新对象.

正如旁注 - 你可以选择一些变态编码,如'zip','base64','rot',其中一些将从字符串转换为字符串,但我相信最常见的情况是涉及UTF-8/UTF-16和字符串.


nos*_*klo 12

mybytestring.encode(somecodec)对以下值有意义somecodec:

  • BASE64
  • BZ2
  • zlib的
  • 十六进制
  • quopri
  • ROT13
  • string_escape
  • UU

我不确定解码已经解码的unicode文本是什么有用的.尝试使用任何编码似乎总是尝试首先使用系统的默认编码进行编码.


小智 5

有一些编码可用于从str到str或从unicode到unicode进行解码/编码.例如base64,hex或甚至rot13.它们列在编解码器模块中.

编辑:

unicode字符串上的解码消息可以撤消相应的编码操作:

In [1]: u'0a'.decode('hex')
Out[1]: '\n'
Run Code Online (Sandbox Code Playgroud)

返回的类型是str而不是unicode,这在我看来是不幸的.但是当你没有在str和unicode之间进行适当的en//解码时,无论如何这看起来都像是一团糟.

  • @nosklo:你是对的.我真正的意思是unicode对象有一个decode()方法,所以你也可以对它们应用非字符编码编解码器.这整个非字符编码业务使得这个界面在Python <3中变得一团糟. (2认同)