我打算规范化为C格式,然后划分为“显示单位”,基本上是一个字形以及所有以下组合字符。现在,我只是想处理基于拉丁语的脚本。
要确定代码点是否为组合字符,是否足以检查它是否在这些范围内?
阿拉伯文,希伯来文和各种印度文字待定...
这些是 Unicode 点的所有范围,其名称包含单词“组合”(例如301 COMBINING ACUTE ACCENT):
300-36F
483-489
7EB-7F3
135F-135F
1A7F-1A7F
1B6B-1B73
1DC0-1DE6
1DFD-1DFF
20D0-20F0 2CEF
-2CF1
2DE0-2DFF
3099-309A
A66F-A672 A67C
-A67D
6F0 -A6F1
A8E0-A8F1
FE20- FE26
101FD-101FD
1D165-1D169
1D16D-1D172
1D17B-1D182
1D185-1D18B
1D1AA-1D1AD
1D242-1D244
我使用该模块使用 Python 脚本编译了此列表unicodedata。我不知道这到底是什么版本的 Unicode,但我认为它是最新的。
不过,我不知道你是否已经了解了严格意义上的“组合”字符,因为 Unicode 中也有“修饰字母”等。