我已经阅读了Joel的文章"绝对最低限度,每个软件开发人员绝对必须知道关于Unicode和字符集(没有借口!)",但仍然不了解所有细节.一个例子将说明我的问题.请看下面这个文件:
替代文字http://www.yart.com.au/stackoverflow/unicode2.png
我在二进制编辑器中打开文件,仔细检查第一个汉字旁边的三个a中的最后一个:
替代文字http://www.yart.com.au/stackoverflow/unicode1.png
乔尔说:
在UTF-8中,0-127的每个代码点都存储在一个字节中.仅使用2,3存储代码点128及以上,实际上最多6个字节.
编辑也说:
如果是这样,是什么表明解释超过2个字节?这是如何用E6后面的字节表示的?
我的汉字是以2,3,4,5或6字节存储的吗?