Unicode代码点限制

use*_*344 13 unicode character-encoding

正如这里所解释的那样,所有的unicode编码都以最大的代码点结束10FFFF但是我听说不同的是它们可以达到6个字节,这是真的吗?

Hol*_*ust 8

UTF-8在其生命周期中经历了一些变化,并且有许多规范(现在大部分已经过时)标准化了UTF-8.引入的大多数更改是为了帮助兼容UTF-16并允许不断增长的代码点数量.

简而言之,UTF-8最初被指定为允许最多31位(或6字节)的代码点.但是使用RFC3629,最多减少到4个字节.与UTF-16更兼容.

维基百科有更多信息.通用字符集的规范与Unicode及其转换格式(UTF)的历史密切相关.

  • @Ted:正如我所说,这一切都取决于你实际上声称UTF-8是什么,有不同的(部分过时的)标准.最新的是RFC 3692.另请注意,UTF不是UCS.UTF-8只定义了UCS中定义的字符的编码标准(因此ISO 10646-1) (2认同)