使用斯坦福NLP检测语言

Kel*_*Lee 8 nlp stanford-nlp

我想知道是否有可能用来Stanford CoreNLP检测一个句子写入哪种语言?如果是这样,那些算法有多精确?

Nik*_*sev 11

几乎可以肯定,斯坦福CORENLP目前还没有语言识别.'差不多' - 因为不存在很难证明.

编辑:不过,以下是间接证据:

  1. 主页,CoreNLP页面FAQ中都没有提到语言识别(虽然有一个问题'如何在其他语言上运行CoreNLP?'),也没有在2014年 CoreNLP作者的论文中提及;
  2. 结合几个NLP库的工具,包括Stanford CoreNLP,使用另一个lib进行语言识别,例如DKPro Core ASL ; 还有其他用户谈论语言识别和CoreNLP没有提到这个功能
  3. CoreNLP的源文件包含Language 类,但没有任何与语言识别相关的内容 - 您可以在这里手动检查所有84个'language'字样

尝试使用TIKA,TextCatJava语言检测库(他们报告"53种语言的精度超过99%").

一般来说,质量取决于输入文本的大小:如果它足够长(例如,至少几个单词而不是特别选择),那么精度可以非常好 - 大约95%.


alv*_*vas 10

Standford CoreNLP没有语言ID(至少现在还没有),请参阅http://nlp.stanford.edu/software/corenlp.shtml


在语言检测/识别工具上有更多的负载.但是要用一小撮盐来报告精确度.它通常被狭隘地评估,受以下因素限制:

  • 一个固定的语言列表,
  • 相当长的测试句和
  • 同一种语言和
  • 对测试实例的培训比例偏差.

值得注意的语言ID工具包括:

来自meta-guide.com 的详尽列表,请参阅http://meta-guide.com/software-meta-guide/100-best-github-language-identification/


值得注意的语言识别相关共享任务(包括培训/测试数据)包括:


另外看看: