小编Nic*_*ume的帖子

字素簇中的最大代码点数量

我正在使用 C++ ICU 库。我希望将 utf-8 字符串分割成大致相等的块。但是,我希望在字素簇边界处划分块。我不希望将整个字符串转换为 utf-16 来实现内存和速度效率。相反,我想将少量接近我估计的块边界的 utf-8 代码点转换为 utf-16。然后我可以使用 ICU 的BreakIterator来计算出确切的边界。

组成字素簇的码点数量是否有硬性上限?如果是这样,那是什么?我需要知道这一点才能确定从 utf-8 转换为 utf-16 所需的最小代码点。

c++ utf icu breakiterator grapheme-cluster

6
推荐指数
1
解决办法
1259
查看次数

标签 统计

breakiterator ×1

c++ ×1

grapheme-cluster ×1

icu ×1

utf ×1