has*_*ble 16
您是否希望在特定域中标记POS?大多数通用标记符都是通过新闻专线文本进行培训的.通常,当您在特定域(例如生物医学文本)中使用它们时,它们表现不佳.还有其他标记器专门针对此类域进行了培训,例如用于生物医学文本的dTagger(java).
对于newswire文本,Adwait Ratnaparkhi的MXPOST非常好,是我推荐的.
其他Java实现包括:
由其他海报发布的OpenNLP和Lingpipe也相当不错.
有关POS标签最新技术的信息可以在这里找到.正如你所看到的那样LTAG-Spinal(也被另一张海报提到)排名最高,但各种标签的变化并不多.我自己没有使用过LTAG.
另请注意,POS标记的基准性能约为90%.基线意味着 - (a)通过词典中最频繁的POS标签标记每个单词,以及(b)将每个未知单词标记为名词.