Nik*_*sev 11
几乎可以肯定,斯坦福CORENLP目前还没有语言识别.'差不多' - 因为不存在很难证明.
编辑:不过,以下是间接证据:
Language
类,但没有任何与语言识别相关的内容 - 您可以在这里手动检查所有84个'language'字样尝试使用TIKA,TextCat或Java语言检测库(他们报告"53种语言的精度超过99%").
一般来说,质量取决于输入文本的大小:如果它足够长(例如,至少几个单词而不是特别选择),那么精度可以非常好 - 大约95%.
alv*_*vas 10
Standford CoreNLP没有语言ID(至少现在还没有),请参阅http://nlp.stanford.edu/software/corenlp.shtml
在语言检测/识别工具上有更多的负载.但是要用一小撮盐来报告精确度.它通常被狭隘地评估,受以下因素限制:
值得注意的语言ID工具包括:
来自meta-guide.com 的详尽列表,请参阅http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
值得注意的语言识别相关共享任务(包括培训/测试数据)包括:
另外看看:
| 归档时间: |
|
| 查看次数: |
5031 次 |
| 最近记录: |