例如,这可以使用统计方法.英语语言具有非常独特的字符分布,并且字符在另一个字符后面显示出非常独特的分布(称为1级模型).
如果'e'是最常见的符号,则该语言不太可能不是欧洲语言.
通过查看Unicode字符值(必要时在字符集之间进行转换)来进行这种区分也可能相当简单(但可能不是100%可靠).如果存在Unicode值大于127的字符,则英语有点不太可能(请注意,有些符号表示€).
如果有许多字符具有数千个Unicode值,则东亚语言变得越来越可能,代码> 65535被保证为中文.
我的想法是计算Unicode表中字符的平均位置.由于中文字符位于ASCII之后(例如,在值127之后),您可以轻松确定文本是英文还是中文.
编辑:基本上同样的达蒙补充道.> _>
| 归档时间: |
|
| 查看次数: |
211 次 |
| 最近记录: |