Unicode联合会打算使UTF-16用完字符吗?

Gla*_*ost 5 unicode utf-8 utf-16

当前版本的UTF-16只能编码1,112,064个不同的数字(代码点);0x0-0x10FFFF

Unicode联合会打算使UTF-16用完字符吗?

即设定一个代码点> 0x10FFFF

如果不是,为什么有人会为utf-8解析器编写代码,使其能够接受5个或6个字节的序列?因为这会在其功能中添加不必要的指令。

1,112,064还不够,我们实际上需要更多字符吗?我的意思是:我们快用完了吗?

Gla*_*ost 5

截至2011年,我们已经消费了109,449个字符并留作应用程序之用(6,400 + 131,068)

为超过860,000个未使用的字符留出空间;足够用于CJK扩展E(约10,000个字符),以及85个以上的扩展集;因此,在与Ferengi文化接触时,我们应该做好准备。

在2003年11月,IETF限制UTF-8以RFC 3629的 U + 10FFFF结尾,以匹配UTF-16字符编码的约束:UTF-8解析器不应接受5或6个字节的序列,该序列会溢出UTF-8字符。 utf-16 set,或4字节序列中大于0x10FFFF

如果它们超出了CJK扩展名E的大小(约10,000个字符)的1/3,请在此处放置对unicode代码点限制的大小构成威胁的编辑列表集: