Joa*_*uer 12
是什么让你认为0xC3是"元数据字节"?
UTF-8中的每个字节都包含有关编码的代码点的相关信息.
UTF-8编码的代码点的第一个字节包含一个标记(前导1的数量),表示用于编码代码点的总字节数(*) 和实际代码点的前几位.然后,所有尾随字节包含"连续标记"(位10)和编码的代码点的6位.
有一个直接使用代码点值的编码:UTF-32(又名UCS-4)基本上"将代码点值用作32位值"
(*)标记实际上非常简单:如果字节以字节开头(即它的最高位是)0,则它是单字节编码(即0到127之间的代码点).如果以它开头10,则它是一个连续字节.如果是110,1110或者11110它分别是2字节,3字节或4字节序列的开始.111110并且1111110过去也被定义,但在现代UTF-8中不再有效(因为那些只需要编码保证永远不会在Unicode标准中使用的值).
| 归档时间: |
|
| 查看次数: |
10887 次 |
| 最近记录: |