Nic*_*ume 6 c++ utf icu breakiterator grapheme-cluster
我正在使用 C++ ICU 库。我希望将 utf-8 字符串分割成大致相等的块。但是,我希望在字素簇边界处划分块。我不希望将整个字符串转换为 utf-16 来实现内存和速度效率。相反,我想将少量接近我估计的块边界的 utf-8 代码点转换为 utf-16。然后我可以使用 ICU 的BreakIterator来计算出确切的边界。
组成字素簇的码点数量是否有硬性上限?如果是这样,那是什么?我需要知道这一点才能确定从 utf-8 转换为 utf-16 所需的最小代码点。
组成字素簇的码点数量是否有硬性上限?
不会。对于一个字素簇(即用户感知的字符)包含的代码点数量没有硬性上限。
例如,您可以重复添加具有连接字符的 ZERO WIDTH JOINER。