在Unicode中是否存在编码,其中每个"字符"只是一个代码点？

Question

在Unicode中是否存在编码,其中每个"字符"只是一个代码点？

use*_*915 3 unicode normalization utf-16 surrogate-pairs unicode-normalization

试着改写:你能将每个组合字符组合映射到一个代码点吗？

我是Unicode的新手,但在我看来,没有编码,规范化或表示,其中一个字符在Unicode的每种情况下都是一个代码点.它是否正确？

基本多语言平面也是如此吗？

Answer 1

如果你的意思是一个char ==一个数字(即:每个char由相同数量的字节/单词/ what-have-you表示):在UCS-4中,每个字符由一个4字节的数字表示.这种方式足以让每个角色都由一个单独的值来表示,但如果你不需要任何更高的字符,那就太浪费了.

如果您指的是兼容性序列(即:其中e +'=>é):现有现代语言中使用的大多数组合都有单字符表示.如果你正在编写自己的语言,你可能会遇到问题...但如果你坚持使用人们实际使用的语言,那你就没问题了.

Unicode显然不是基于"足够常见".理想情况下,他们不需要任何新的预组合字符.他们说他们想要与传统编码兼容,因此他们在常用的遗留编码中包含几乎所有预先组合的字符,但强烈抵制任何新编码.我很确定我听说他们甚至抵制了预先组成的越南拉丁字符和预先组合的韩语(朝鲜语)音节,但却陷入了包含它们的压力之中.不幸的是我没有任何引用,这是来自以下Unicode的内存,自90年代以来不同的兴趣级别.+ 1) (2认同)

Answer 2

dan*_*n04 6

你能将每个组合字符组合映射到一个代码点吗？

每个组合字符组合？你提出的编码如何代表字符串"à̴̵̶̷̸̡̢̧̨̛̖̗̘̙̜̝̞̟̠̣̤̥̦̩̪̫̬̭̮̯̰̳̹̺̻̼͇͈͉͍͎̄̅̆̇̈̉̊̋̌̍̏̐̑̒̓̔̽̾̿̓̈͆͊͋͌̕̚͏͓͔͕͖͙͚͐͑͒͗͛ͣͤͥͦͧͨͩͪͫͬͭͮͯ͘͜͟͢͝͞͠͡"？(附有一百多个组合标记的'a'？)这是不切实际的.

但是,Unicode中有很多"预组合"字符,比如áçñü.规范化形式C将尽可能使用这些而不是分解版本.

归档时间：	15 年，1 月前
查看次数：	279 次
最近记录：	10 年，4 月前