python3.5中不同编码的字符串长度

Question

python3.5中不同编码的字符串长度

Z-J*_*ang 4 python unicode byte-order-mark utf-8 utf-16

我在 python 中尝试这样做来获取字符串的长度（以字节为单位）。

>>> s = 'a'
>>> s.encode('utf-8')
b'a'
>>> s.encode('utf-16')
b'\xff\xfea\x00'
>>> s.encode('utf-32')
b'\xff\xfe\x00\x00a\x00\x00\x00'
>>> len(s.encode('utf-8'))
1
>>> len(s.encode('utf-16'))
4
>>> len(s.encode('utf-32'))
8

Run Code Online (Sandbox Code Playgroud)

utf-8使用一个字节来存储一个ascii字符，正如预期的那样，但是为什么utf-16使用4个字节呢？len() 到底测量什么？

Answer 1

wim*_*wim 5

长话短说：

UTF-8 : 1 byte 'a'
UTF-16: 2 bytes 'a' + 2 bytes BOM
UTF-32: 4 bytes 'a' + 4 bytes BOM

Run Code Online (Sandbox Code Playgroud)

UTF-8 是一种可变长度编码，字符的编码长度可以在 1 到 4 个字节之间。它被设计为匹配前 128 个字符的 ASCII，因此'a' 是单字节宽度。
UTF-16是一种变长编码；代码点用一个或两个16位代码单元（即2或4个字节）进行编码，一个'a'是2个字节宽。
UTF-32 是固定宽度的，每个代码点正好 32 位，每个字符都是 4 字节宽，因此'a' 是 4 字节宽。

对于以 UTF-8、UTF-16、UTF-32 编码的“a”的长度，您可能期望分别看到结果 1、2、4。1、4、8 的实际结果被夸大了，因为在最后两种情况下，输出包含 BOM -那\xff\xfe就是字节顺序标记，用于指示数据的字节顺序。

unicode 标准允许 UTF-8 中的 BOM，但既不要求也不建议使用它（它在那里没有任何意义），这就是为什么您在第一个示例中看不到任何 BOM。UTF-16 BOM 为 2 个字节宽，UTF-32 BOM 为 4 个字节宽（实际上它与 UTF-16 BOM 相同，加上一些填充空值）。

>>> 'a'.encode('utf-16')  # length 4: 2 bytes BOM + 2 bytes a
b'\xff\xfea\x00'
  BOM.....a....
>>> 'aaa'.encode('utf-16')  # length 8: 2 bytes BOM + 3*2 bytes of a
b'\xff\xfea\x00a\x00a\x00'
  BOM.....a....a....a....

Run Code Online (Sandbox Code Playgroud)

如果您使用该模块查看原始位，则查看数据中的 BOM 可能会更清楚bitstring：

>>> # pip install bitstring
>>> from bitstring import Bits
>>> Bits(bytes='a'.encode('utf-32')).bin
'1111111111111110000000000000000001100001000000000000000000000000'
>>> Bits(bytes='aaa'.encode('utf-32')).bin
'11111111111111100000000000000000011000010000000000000000000000000110000100000000000000000000000001100001000000000000000000000000'
 BOM.............................a...............................a...............................a...............................

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，6 月前
查看次数：	2613 次
最近记录：	4 年，6 月前