Las*_*sus 3 nlp utf-8 character-encoding
我试图以识别不同语言字符的方式分析一些UTF-8编码的文档.对于我的工作方法,我需要忽略非语言字符,例如控制字符,数学符号等.只是试图剖析UTF标准的基本拉丁部分导致了多个区域,像分区符号这样的字符正好在一系列有效拉丁字符的中间部分.
是否有某个列表可以识别这些区域?或者更好的是,一个正则表达式定义了C#中可以识别不同字符的区域或某些东西?
| 归档时间: |
|
| 查看次数: |
366 次 |
| 最近记录: |