thS*_*oft 5 unicode alphabetic character-properties
我需要具有http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic中Alphabetic定义的属性的Unicode字符范围列表.但是,无论我如何搜索它们,我都无法在Unicode字符数据库中找到它们.有人可以提供它们的列表,还是只提供具有指定Unicode属性的字符的搜索工具?
tch*_*ist 12
Unicode字符数据库包含分发中的所有文本文件.它不仅仅是一个很久以前的单个文件.
Alphabetic属性是派生属性.
你真的不想为此使用代码点范围.您想要正确使用该属性.那是因为它们太多了.使用unichars脚本,我们了解到只有基本多语言平面中有超过一万个不计算Han或Hangul:
$ unichars '\p{Alphabetic}' | wc -l
10052
Run Code Online (Sandbox Code Playgroud)
如果我们包括其他16架星体飞机,现在我们已经达到了一万四千架:
$ unichars -a '\p{Alphabetic}' | wc -l
14736
Run Code Online (Sandbox Code Playgroud)
如果我们包括Han和Hangul,实际上是字母表属性,我们只是从十万个代码点吹掉了屋顶:
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
Run Code Online (Sandbox Code Playgroud)
我希望你能看到,你不会想特别列举这些使用代码点范围.走那条路就是疯狂.
顺便说一句,如果你发现unichars脚本很有用,你可能也喜欢uniprops脚本和uninames脚本.
派生核心属性可以根据其他属性计算得出。
Alphabetic 属性定义为: 生成自:Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
因此,如果您获取 Lu、Ll、Lt、Lm、Lo、Nl 中的所有字符以及具有 Other_Alphabetic 属性的所有字符,您将获得字母字符。
| 归档时间: |
|
| 查看次数: |
5847 次 |
| 最近记录: |