UTF-8编码大小

use*_*234 12 unicode utf-8

什么unicode字符适合1,2,4字节?有人能指出我完成角色图表吗?

Jim*_*mmy 24

字符根据它们在范围内的位置进行编码.您可以在维基百科页面上找到UTF8的算法 - 您可以非常快速地实现 维基百科UTF8编码

  • U + 0000到U + 007F(正确地)用一个字节编码
  • U + 0080到U + 07FF用2个字节编码
  • U + 0800到U + FFFF用3个字节编码
  • U + 010000到U + 10FFFF用4个字节编码


Bre*_*dan 6

关于UTF-8的维基百科文章对编码有足够好的描述:

  • 1 字节 = 代码点 0x000000 到 0x00007F(含)
  • 2 个字节 = 代码点 0x000080 到 0x0007FF
  • 3 个字节 = 代码点 0x000800 到 0x00FFFF
  • 4 个字节 = 代码点 0x010000 到 0x10FFFF

图表可以直接从unicode.org下载。这是一组大约 150 个 PDF 文件,因为单个图表会很大(可能 30 MiB)。

另请注意,Unicode(与 ASCII 之类的东西相比)处理起来要复杂得多 - 从右到左的文本、字节顺序标记、可以组合(“组合”)以创建单个字符的代码点和表示完全相同的字符串的不同方式(以及将字符串转换为适合比较的规范形式的过程)、更多的空白字符等。如果您愿意,我建议您下载整个 Unicode 规范并阅读其中的大部分内容'计划做的不仅仅是“不多”。