用于检查Unicode中的字符组合的算法

Question

用于检查Unicode中的字符组合的算法

Yim*_*ong 5 unicode

我打算规范化为C格式，然后划分为“显示单位”，基本上是一个字形以及所有以下组合字符。现在，我只是想处理基于拉丁语的脚本。

要确定代码点是否为组合字符，是否足以检查它是否在这些范围内？

组合变音标记（0300–036F）
组合变音符号补充（1DC0–1DFF）
组合符号的变音符号（20D0–20FF）
合并半角线（FE20–FE2F）

阿拉伯文，希伯来文和各种印度文字待定...

Answer 1

len*_*enz 3

这些是 Unicode 点的所有范围，其名称包含单词“组合”（例如301 COMBINING ACUTE ACCENT）：

300-36F
483-489
7EB-7F3
135F-135F
1A7F-1A7F
1B6B-1B73
1DC0-1DE6
1DFD-1DFF
20D0-20F0 2CEF
-2CF1
2DE0-2DFF
3099-309A
A66F-A672 A67C
-A67D
6F0 -A6F1
A8E0-A8F1
FE20- FE26
101FD-101FD
1D165-1D169
1D16D-1D172
1D17B-1D182
1D185-1D18B
1D1AA-1D1AD
1D242-1D244

我使用该模块使用 Python 脚本编译了此列表unicodedata。我不知道这到底是什么版本的 Unicode，但我认为它是最新的。

不过，我不知道你是否已经了解了严格意义上的“组合”字符，因为 Unicode 中也有“修饰字母”等。

要确定某个字符是否是组合标记，您应该测试其常规类别 (gc) 属性，而不是其 Unicode 名称，后者只是一个字母标识符。 (6认同)

归档时间：	12 年，8 月前
查看次数：	1224 次
最近记录：	10 年，11 月前