我可以确定数据是英文还是中文？

Question

我可以确定数据是英文还是中文？

是否可以确定数据是英文还是中文？

Answer 1

例如,这可以使用统计方法.英语语言具有非常独特的字符分布,并且字符在另一个字符后面显示出非常独特的分布(称为1级模型).

如果'e'是最常见的符号,则该语言不太可能不是欧洲语言.

通过查看Unicode字符值(必要时在字符集之间进行转换)来进行这种区分也可能相当简单(但可能不是100%可靠).如果存在Unicode值大于127的字符,则英语有点不太可能(请注意,有些符号表示€).
如果有许多字符具有数千个Unicode值,则东亚语言变得越来越可能,代码> 65535被保证为中文.

Answer 2

Rol*_*ndK 5

我的想法是计算Unicode表中字符的平均位置.由于中文字符位于ASCII之后(例如,在值127之后),您可以轻松确定文本是英文还是中文.

编辑:基本上同样的达蒙补充道.> _>

归档时间：	14 年，6 月前
查看次数：	211 次
最近记录：	14 年，6 月前