语言检测非常短的文本

MrD*_*MrD 4 nlp nltk language-detection

我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).

我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.

当文本由非常短的单词组成时,CLD失败.在查看了CLD的源​​代码后,我发现它使用了4克,这可能就是原因.

我现在想的提高准确性的方法是:

  • 删除品牌名称,数字,网址和"软件","下载","互联网"等字词
  • 使用字典当文本在threashold上方包含许多短字或包含太少字时.
  • 该词典是从维基百科新闻文章+ hunspell词典创建的.

什么数据集最适合此任务?我该如何改进这种方法?

到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.

Fre*_*Foo 6

对于非常短的文本的语言检测是当前研究的主题,因此不能给出确定的答案.Twitter数据的算法可以在Carter,Tsagkias和Weerkamp 2011中找到.另见那里的参考文献.


小智 5

是的,这是一个研究课题,已经取得了一些进展.

例如,http://code.google.com/p/language-detection/上的"语言检测"一书的作者为短消息创建了新的配置文件.目前,它支持17种语言.

我将它与Bing语言检测器进行了比较,收集了大约500条推文,大部分是英语和西班牙语.准确度如下:

   Bing = 71.97%
   Language-Detection Tool with new profiles = 89.75%
Run Code Online (Sandbox Code Playgroud)

有关更多信息,您可以查看他的博客:http: //shuyo.wordpress.com/2011/11/28/language-detection-supported-17-language-profiles-for-short-messages/