什么是超长表格/编码?

nEA*_*nam 17 unicode sequences utf-8 codepoint character-encoding

阅读关于UTF-8维基百科文章,我一直想知道这个术语是否过长.该术语使用了不同的时间,但该文章没有提供其含义的定义或参考.

我想知道是否有人可以解释这个术语及其目的.

Jon*_*eet 18

它是一个代码点的编码,它需要的代码单元比它需要的多.

例如,U + 0020由单字节以UTF-8表示0x20.如果你0xc0 0xa0以正常方式解码这两个字节,你仍然会回到U + 0020,但这是一个无效的表示.

统一更正#1有更多的信息,特别是围绕表3.1B.


Joe*_*oey 5

UTF-8理论上允许具有较短的字符的不同表示.例如,您可以通过将MSB设置为零来将ASCII字符编码为两个字节.UTF-8规范明确禁止这样做.