语言检测非常短的文本

Question

我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).

我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.

当文本由非常短的单词组成时,CLD失败.在查看了CLD的源代码后,我发现它使用了4克,这可能就是原因.

我现在想的提高准确性的方法是:

什么数据集最适合此任务？我该如何改进这种方法？

到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.

Answer 1

对于非常短的文本的语言检测是当前研究的主题,因此不能给出确定的答案.Twitter数据的算法可以在Carter,Tsagkias和Weerkamp 2011中找到.另见那里的参考文献.

Answer 2

是的,这是一个研究课题,已经取得了一些进展.

例如,http://code.google.com/p/language-detection/上的"语言检测"一书的作者为短消息创建了新的配置文件.目前,它支持17种语言.

我将它与Bing语言检测器进行了比较,收集了大约500条推文,大部分是英语和西班牙语.准确度如下:

   Bing = 71.97%
   Language-Detection Tool with new profiles = 89.75%