在某处有UTF-8的语言字符区域列表吗?

Las*_*sus 3 nlp utf-8 character-encoding

我试图以识别不同语言字符的方式分析一些UTF-8编码的文档.对于我的工作方法,我需要忽略非语言字符,例如控制字符,数学符号等.只是试图剖析UTF标准的基本拉丁部分导致了多个区域,像分区符号这样的字符正好在一系列有效拉丁字符的中间部分.

是否有某个列表可以识别这些区域?或者更好的是,一个正则表达式定义了C#中可以识别不同字符的区域或某些东西?

Mat*_*hen 5

查看Unicode 字符类别.您可以使用字符类语法将C#正则表达式中的这些匹配\p{catname}.因此,要匹配小写字母,您可以使用\p{Ll}.你可以结合这些. [\p{Ll}\p{Lu}]匹配Ll或Lu类中的字符.