我们知道代码点可以在0..10FFFF的这个区间内,小于2 ^ 21.那么为什么我们需要UTF-32才能用3个字节表示所有代码点?UTF-24应该足够了.
unicode encoding
维基百科
Unicode 包含 1,114,112 个代码点,范围为 0hex 到 10FFFFhex
我对 unicode 编码最多可以占用 4 个字节感到有点困惑。难道 3 个字节不能轻松容纳 1,114,112 个代码点吗?可能我遗漏了一些需要 4 个字节的特殊情况;请举一些具体的例子(如果有的话)?
unicode
unicode ×2
encoding ×1