Pet*_*ham 6 unicode collation normalization unicode-normalization accent-insensitive
我有一个混合使用unicode字符\ u0421,'С'和\ u0043,'C'的数据集.是否有某种unicode比较,认为这两个字符相同?到目前为止,我已经尝试了几种ICU整理,包括俄罗斯的整理.
不存在根据字形的视觉标识将字符视为相同的 Unicode 比较。然而,Unicode 技术标准 #39,Unicode 安全机制,处理 \xe2\x80\x9cconfusables\xe2\x80\x9d \xe2\x80\x93 字符,这些字符可能由于视觉标识或相似性而相互混淆。它包括一个易混淆的数据文件以及\xe2\x80\x9有意混淆的\xe2\x80\x9d对,即\xe2\x80\x9c字符,其在任何特定字体中的字形在使用统一字体设计\xe2\x80\x9d,主要由成对的拉丁字母和西里尔字母或希腊字母组成,如C和\xd0\xa1。您可能需要编写自己对这些数据的使用的代码,因为 ICU 似乎没有任何与容易混淆的概念相关的内容。
\n| 归档时间: |
|
| 查看次数: |
708 次 |
| 最近记录: |