我如何知道某个特定语言的角色?在Unicode字符串中

Mix*_*xer 6 c# string unicode

可能重复:
返回给定字符串的语言

任务是对字符串列表进行排序.优先考虑特定语言.字符串可以用不同的语言编写.如中文,英文,俄文.我需要首先考虑所有中国人,然后是其他人.

为此,我想知道哪个国家/地区(语言)属于字符串中的特定字符.(例如在第一个字母上)

有没有课程或方法?

Lou*_*ann 5

如果我们谈论的是字母表,那么您可以简单地通过强制转换来检查字符的 int 表示:

int unicodeValue = (int)myString[0];
Run Code Online (Sandbox Code Playgroud)

然后使用像这样的表格检查它是否在语言的限制范围内。
例如,?is 19984,它是4E10十六进制 ( 19984.ToString("X")) ,使其成为CJK 统一象形文字。看起来这是汉字的类别,但您需要四处挖掘并确定。

现在,如果我们正在讨论确定特定单词来自哪种语言,您需要研究 Soundex 算法。


D J*_*D J 1

试试这个链接

\n\n

如何检测字符串的语言?

\n\n

代码是(已复制)

\n\n
var text = "\xc2\xbfD\xc3\xb3nde est\xc3\xa1 el ba\xc3\xb1o?";\ngoogle.language.detect(text, function(result) {\nif (!result.error) {\nvar language = \'unknown\';\nfor (l in google.language.Languages) {\n  if (google.language.Languages[l] == result.language) {\n    language = l;\n    break;\n  }\n}\nvar container = document.getElementById("detection");\ncontainer.innerHTML = text + " is: " + language + "";\n}\n});\n
Run Code Online (Sandbox Code Playgroud)\n