MrD*_*MrD 4 nlp nltk language-detection
我正在创建一个用于检测短文本语言的应用程序,平均值<100个字符并包含俚语(例如推文,用户查询,短信).
我测试的所有库都适用于普通网页,但不适用于非常短的文本.到目前为止,提供最佳结果的库是Chrome的语言检测(CLD)库,我必须将其构建为共享库.
当文本由非常短的单词组成时,CLD失败.在查看了CLD的源代码后,我发现它使用了4克,这可能就是原因.
我现在想的提高准确性的方法是:
什么数据集最适合此任务?我该如何改进这种方法?
到目前为止,我正在使用EUROPARL和维基百科的文章.我正在使用NLTK完成大部分工作.
小智 5
是的,这是一个研究课题,已经取得了一些进展.
例如,http://code.google.com/p/language-detection/上的"语言检测"一书的作者为短消息创建了新的配置文件.目前,它支持17种语言.
我将它与Bing语言检测器进行了比较,收集了大约500条推文,大部分是英语和西班牙语.准确度如下:
Bing = 71.97%
Language-Detection Tool with new profiles = 89.75%
Run Code Online (Sandbox Code Playgroud)
有关更多信息,您可以查看他的博客:http: //shuyo.wordpress.com/2011/11/28/language-detection-supported-17-language-profiles-for-short-messages/
| 归档时间: |
|
| 查看次数: |
3452 次 |
| 最近记录: |