Unicode中视觉上相同的字符

Bah*_*r S 6 unicode similarity

我想在Unicode中找到特定字符的视觉上相同的字符.我知道如何找到角色的规范或兼容性分解; 但他们没有给我我想要的东西.我想找到视觉上相同(不相似)的字符,它们唯一的区别可能是它们的大小.

例如我想:(s,S)或(S,S)(其代码点不同).我不想要(ß,β)或(e,é).

有什么建议?谢谢.

Juk*_*ela 6

对于特定字符,您可以从Unicode标准的代码表中的注释开始.注释通常由于各种原因而引用其他字符,包括形状的相似性或同一性.但是注释并不意味着涵盖一切.

您还可以在http://shapecatcher.com/上绘制角色,并让它识别它.您经常会得到一长串视觉上相似的替代品.

正如@TedHopp在评论中所写,视觉识别与字体有关.例如,"s"和"S"的形状不必相同; 在大多数字体中,它们不是 - 基本形式是相同的,但在笔画宽度变化,曲率,衬线等方面存在各种差异.但是,某些字符在包含它们的任何字体中都可以在视觉上相同,例如作为拉丁文资本A,希腊资本alphaA和西里尔资本А.

您没有指定研究的目的,但您可能正在做一些由Unicode Consortium在某种程度上执行的操作.请参阅UTR#6,Unicode安全注意事项,其中还包含对相关工作的引用,包括UTS#9,Unicode安全机制,其中包含confusables.txt,推荐的IDN可混淆映射(即,对于特定上下文,但它可能是对其他目的感兴趣).