Que*_*ing 5 unicode encoding utf-8
我正在阅读Joel Spolsky的流行的Unicode文章,有一个我不明白的插图.
"Hex Min,Hex Max"是什么意思?这些价值代表什么?最小和最大的是什么?
二进制只能有1或0.为什么我在这里看到大量字母"v"?
http://www.joelonsoftware.com/articles/Unicode.html

Sod*_*ved 11
Hex Min/Max定义unicode字符的范围(通常用HEX中的unicode编号表示).
的v被参照原来数目的比特
所以第一行是说:
0(十六进制00)到127(十六进制7F)(一个7位数)范围内的unicode字符由1字节位串表示,以'0'开头,后跟全部7位的unicode号.
第二行是说:
128(十六进制0800)到2047(07FF)(一个11位数)范围内的unicode数字由一个2字节的位串表示,其中第一个字节以'110'开头,后跟11位中的前5个,第二个字节以'10'开头,后跟剩余的11个字节
等等
希望有道理
请注意,Joel文章中的表格涵盖了在Unicode中不存在且永远不存在的代码点.实际上,UTF-8从不需要超过4个字节,尽管如图所示,UTF-8的方案可以进一步扩展.
中文字符文件如何知道每个字符使用多少字节,可以使用更细微的表格版本? 它指出了一些差距.例如,字节0xC0,0xC1和0xF5..0xFF永远不会出现在有效的UTF-8中.您还可以在真正好的坏UTF-8示例测试数据中查看有关无效UTF-8的信息.
在您显示的表中,Hex Min和Hex Max值是可以使用"二进制字节序列"列中的字节数表示的最小和最大U + wxyz值.请注意,Unicode中的最大代码点是U + 10FFFF(并且定义/保留为非字符).这是使用UTF-16中的代理编码方案仅使用4个字节(两个UTF-16代码点)表示的最大值.
| 归档时间: |
|
| 查看次数: |
2257 次 |
| 最近记录: |