我发现这个问题让我能够检查字符串是否包含中文字符.我不确定unicode范围是否正确但是它们似乎对日语和韩语都是假的,对中文来说是真的.
它没有做的是判断角色是传统的还是简体中文.你怎么会发现这个?
问:如果这是一个中文,韩文或日文字符,我如何识别Unicode字符的32位值?
http://unicode.org/faq/han_cjk.html
他们认为角色无论形状如何都具有相同的含义,因此应该用相同的代码来表示.嗯,这对我来说没有意义,因为我正在分析与他们的解决方案无关的个别角色:
一个更好的解决方案是整个文本:如果有相当数量的假名,它可能是日语,如果有相当数量的韩语,它可能是韩语.