Car*_*s00 1 c c++ unicode collation unicode-normalization
我有一个Unicode字符串编码,比如说UTF8.Unicode中的一个字符串可以包含少量字节表示.我想知道,是否有任何或可以创建任何规范(标准化)形式的Unicode字符串 - 所以我们可以例如比较这样的字符串memcmp(3)等.例如ICU或任何其他C/C++库可以做到吗?
您可能正在寻找Unicode规范化.基本上有四种不同的常规形式,每种形式都确保所有等效的字符串之后都有一个共同的形式.但是,在许多情况下,您还需要考虑区域设置,因此虽然这可能是进行字节到字节比较的便宜方式(如果您确保使用相同的Unicode转换格式,如UTF-8或UTF-16除了有限的用例之外,它不会让你获得太多.