如何检测语言

nik*_*ers 12 detection language-detection

是否有任何好的,开源的引擎用于检测文本所使用的语言,可能具有概率指标?一个我可以在本地运行,不查询谷歌或必应?我想在大约1500万页的OCR文本中检测每页的语言.

并非所有文档都包含使用拉丁字母的语言.

arc*_*oon 8

根据您正在做的事情,您可能需要查看python自然语言处理工具包(NLTK),它对贝叶斯学习算法有一些支持.

一般来说,字母和单词频率可能是最快的评估,但是如果您需要做除语言识别之外的任何事情,NLTK(或一般的贝叶斯学习算法)可能会有用.如果您发现前两种方法的错误率过高,贝叶斯方法可能也会有用.


Dol*_*lph 5

你一定能建立自己的,给予一定的统计字母频率有向图的频率,等等,你的目标语言。

然后将其作为开源发布。而且,你有一个开源引擎用于检测文本的语言!