在Java中确定unicode字符串的语言

Raj*_*esh 4 java string unicode

如果我在java中有一个字符串,我该如何确定它属于哪种语言?Unicode规范是否允许我们这样做?

Jef*_*eff 6

Unicode字符串中没有元数据指定字符串所在的语言,如果字符串甚至是单词或短语.

根据字符串中包含的字符,您可以猜出正在使用的语言.例如,Unicode范围30A0-30FF表示日语片假名字符.因此,如果您的大多数字符串都包含该范围内的字符,那么您可以做出有根据的猜测,即它是日语.但这根本不可靠.例如,如果它只是随机的片假名字符怎么办?

为了可靠的语言检测,我会放弃使用Unicode作为语言检测基础的所有想法,并专注于语言识别算法.