难道真的不意味着是一个单一的字素吗?

Don*_*sek 1 unicode

我一直对技术标准 51 的附件 C附件 29关于 Unicode 文本分割以及Unicode 字形断裂测试数据文件感到困惑,附件 29 中簇的定义似乎没有涵盖序列tag_base tag_spec + tag_end意味着构建为表情符号标签序列的字符将被附件 29 算法视为 7 个字素,而不是人们所期望的单个字素。

我知道实现所呈现的序列具有灵活性,但正确的行为似乎是将语法上有效的表情符号标签序列的所有实例视为单个字素以进行聚类分析,而不是分解从标签构建的字符序列成多个字素。

编辑添加

  1. 这是附件 29 中关于文本分割的疏忽吗?
  2. 文本分段的实现应该将标签序列视为单个字素还是七个字素?

Cha*_*uff 5

不可见的标记字符属于字素簇中断类别Extend,这意味着它们的行为就像组合标记。\xe2\x80\x99t 不需要有特殊情况来处理表情符号标签序列,因为违反规则GB9 的字形簇将简单地处理它们。

\n