西里尔'С'和拉丁'C'的Unicode比较

Question

西里尔'С'和拉丁'C'的Unicode比较

Pet*_*ham 6 unicode collation normalization unicode-normalization accent-insensitive

我有一个混合使用unicode字符\ u0421,'С'和\ u0043,'C'的数据集.是否有某种unicode比较,认为这两个字符相同？到目前为止,我已经尝试了几种ICU整理,包括俄罗斯的整理.

Answer 1

不存在根据字形的视觉标识将字符视为相同的 Unicode 比较。然而，Unicode 技术标准 #39，Unicode 安全机制，处理 \xe2\x80\x9cconfusables\xe2\x80\x9d \xe2\x80\x93 字符，这些字符可能由于视觉标识或相似性而相互混淆。它包括一个易混淆的数据文件以及\xe2\x80\x9有意混淆的\xe2\x80\x9d对，即\xe2\x80\x9c字符，其在任何特定字体中的字形在使用统一字体设计\xe2\x80\x9d，主要由成对的拉丁字母和西里尔字母或希腊字母组成，如C和\xd0\xa1。您可能需要编写自己对这些数据的使用的代码，因为 ICU 似乎没有任何与容易混淆的概念相关的内容。

\n

归档时间：	12 年，2 月前
查看次数：	708 次
最近记录：	7 年前