所有汉字字符都是UTF-8 3字节长吗?

Top*_*der 19 unicode utf-8 character-encoding cjk

有人可以确认所有汉字中的汉字字符都是3字节长的UTF-8吗?

dan*_*n04 27

常用的汉字/汉字字符位于U + 4E00和U + 9FFF之间的"CJK统一表意文字"块中,并采用UTF-8中的3个字节.(日语平假名和片假名字符也需要3个字节.)

但是,"CJK统一表意文字扩展B"和"CJK兼容表意文字补充"块中也有一些很少使用的字符,它们采用UTF-8中的4个字节.

另请注意,中文文本通常包含数字0-9等ASCII字符.

  • 源自Shift-JIS的日文文本也可能包含映射到双字节序列的其他非汉字,非ASCII字符.然后我们很快会有表情符号,它们也在基本多语言平面之外,所以4个字节...... (2认同)
  • @sleske:不,我不说*中文.我刚刚用字符编码做了太多工作. (2认同)
  • @sleske还有...这是互联网.所以很可能是那些会说你甚至都听不到的语言的人. (2认同)
  • 另请参阅日语堆栈交换上的这个问题:http://japanese.stackexchange.com/q/6872/16273 - 显然一些“很少使用”的字符并不是那么罕见。 (2认同)