什么是用于词性标注的优秀Java库?

Gle*_*enn 29 java nlp

我正在寻找一个很好的Java 开源POS Tagger.这是我到目前为止所提出的.

有人有什么建议吗?

has*_*ble 16

您是否希望在特定域中标记POS?大多数通用标记符都是通过新闻专线文本进行培训的.通常,当您在特定域(例如生物医学文本)中使用它们时,它们表现不佳.还有其他标记器专门针对此类域进行了培训,例如用于生物医学文本的dTagger(java).

对于newswire文本,Adwait Ratnaparkhi的MXPOST非常好,是我推荐的.

其他Java实现包括:

  1. MontyLingua
  2. Berkeley Parser(不是真正的POS标记器,但所有完整的解析器通常都包含POS标记器.Google用于Java语法分析器,你会发现很多.)
  3. QTag
  4. LBJ

由其他海报发布的OpenNLPLingpipe也相当不错.

有关POS标签最新技术的信息可以在这里找到.正如你所看到的那样LTAG-Spinal(也被另一张海报提到)排名最高,但各种标签的变化并不多.我自己没有使用过LTAG.

另请注意,POS标记的基准性能约为90%.基线意味着 - (a)通过词典中最频繁的POS标签标记每个单词,以及(b)将每个未知单词标记为名词.


Sha*_*ore 3

我使用过OpenNLP,效果不错。您还可以查看MorphAdorner