西里尔'С'和拉丁'C'的Unicode比较

Pet*_*ham 6 unicode collation normalization unicode-normalization accent-insensitive

我有一个混合使用unicode字符\ u0421,'С'和\ u0043,'C'的数据集.是否有某种unicode比较,认为这两个字符相同?到目前为止,我已经尝试了几种ICU整理,包括俄罗斯的整理.

Juk*_*ela 3

不存在根据字形的视觉标识将字符视为相同的 Unicode 比较。然而,Unicode 技术标准 #39,Unicode 安全机制,处理 \xe2\x80\x9cconfusables\xe2\x80\x9d \xe2\x80\x93 字符,这些字符可能由于视觉标识或相似性而相互混淆。它包括一个易混淆的数据文件以及\xe2\x80\x9有意混淆的\xe2\x80\x9d对,即\xe2\x80\x9c字符,其在任何特定字体中的字形在使用统一字体设计\xe2\x80\x9d,主要由成对的拉丁字母和西里尔字母或希腊字母组成,如C和\xd0\xa1。您可能需要编写自己对这些数据的使用的代码,因为 ICU 似乎没有任何与容易混淆的概念相关的内容。

\n