我一直对技术标准 51 的附件 C和附件 29关于 Unicode 文本分割以及Unicode 字形断裂测试数据文件感到困惑,附件 29 中簇的定义似乎没有涵盖序列tag_base tag_spec + tag_end意味着构建为表情符号标签序列的字符将被附件 29 算法视为 7 个字素,而不是人们所期望的单个字素。
我知道实现所呈现的序列具有灵活性,但正确的行为似乎是将语法上有效的表情符号标签序列的所有实例视为单个字素以进行聚类分析,而不是分解从标签构建的字符序列成多个字素。
编辑添加:
| 归档时间: |
|
| 查看次数: |
218 次 |
| 最近记录: |