use*_*915 3 unicode normalization utf-16 surrogate-pairs unicode-normalization
试着改写:你能将每个组合字符组合映射到一个代码点吗?
我是Unicode的新手,但在我看来,没有编码,规范化或表示,其中一个字符在Unicode的每种情况下都是一个代码点.它是否正确?
基本多语言平面也是如此吗?
如果你的意思是一个char ==一个数字(即:每个char由相同数量的字节/单词/ what-have-you表示):在UCS-4中,每个字符由一个4字节的数字表示.这种方式足以让每个角色都由一个单独的值来表示,但如果你不需要任何更高的字符,那就太浪费了.
如果您指的是兼容性序列(即:其中e +'=>é):现有现代语言中使用的大多数组合都有单字符表示.如果你正在编写自己的语言,你可能会遇到问题...但如果你坚持使用人们实际使用的语言,那你就没问题了.
你能将每个组合字符组合映射到一个代码点吗?
每个组合字符组合?你提出的编码如何代表字符串"à̴̵̶̷̸̡̢̧̨̛̖̗̘̙̜̝̞̟̠̣̤̥̦̩̪̫̬̭̮̯̰̳̹̺̻̼͇͈͉͍͎̄̅̆̇̈̉̊̋̌̍̏̐̑̒̓̔̽̾̿̓̈͆͊͋͌̕̚͏͓͔͕͖͙͚͐͑͒͗͛ͣͤͥͦͧͨͩͪͫͬͭͮͯ͘͜͟͢͝͞͠͡"?(附有一百多个组合标记的'a'?)这是不切实际的.
但是,Unicode中有很多"预组合"字符,比如áçñü.规范化形式C将尽可能使用这些而不是分解版本.
| 归档时间: |
|
| 查看次数: |
279 次 |
| 最近记录: |