Unicode字母字符列表

thS*_*oft 5 unicode alphabetic character-properties

我需要具有http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic中Alphabetic定义的属性的Unicode字符范围列表.但是,无论我如何搜索它们,我都无法在Unicode字符数据库中找到它们.有人可以提供它们的列表,还是只提供具有指定Unicode属性的字符的搜索工具?

tch*_*ist 12

Unicode字符数据库包含分发中的所有文本文件.它不仅仅是一个很久以前的单个文件.

Alphabetic属性是派生属性.

你真的不想为此使用代码点范围.您想要正确使用该属性.那是因为它们太多了.使用unichars脚本,我们了解到只有基本多语言平面中有超过一万个计算Han或Hangul:

$ unichars '\p{Alphabetic}' | wc -l
   10052
Run Code Online (Sandbox Code Playgroud)

如果我们包括其他16架星体飞机,现在我们已经达到了一万四千架:

$ unichars -a '\p{Alphabetic}' | wc -l
   14736
Run Code Online (Sandbox Code Playgroud)

如果我们包括Han和Hangul,实际上是字母表属性,我们只是从十万个代码点吹掉了屋顶:

$ unichars -ua '\p{Alphabetic}' | wc -l
  101539
Run Code Online (Sandbox Code Playgroud)

我希望你能看到,你不会想特别列举这些使用代码点范围.走那条路就是疯狂.

顺便说一句,如果你发现unichars脚本很有用,你可能也喜欢uniprops脚本uninames脚本.


Avi*_*Avi 3

派生核心属性可以根据其他属性计算得出。

Alphabetic 属性定义为: 生成自:Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic

因此,如果您获取 Lu、Ll、Lt、Lm、Lo、Nl 中的所有字符以及具有 Other_Alphabetic 属性的所有字符,您将获得字母字符。