Pau*_*sak 4 java lucene stemming
有没有人比较过来自Lucene的这些词干分析器(包org.tartarus.snowball.ext):EnglishStemmer,PorterStemmer,LovinsStemmer?它们背后的算法的优点/缺点是什么?什么时候应该使用它们?或许还有一些算法可用于英语单词干预?
谢谢.
Fre*_*Foo 18
Lovins干扰器是一种非常古老的算法,因为Porter干扰器更强大,所以它没有太多实际应用.基于一些快速浏览源代码,它似乎PorterStemmer实现了Porter的原始(1980)算法,同时EnglishStemmer实现了他的更新版本,这应该更好.
Stanford NLP工具提供了更强的词干算法(实际上是一个词形变换器).您可以在这里获得Lucene-Stanford NLP (API文档).
另请参阅Manning,Raghavan和Schütze,了解有关词干化和词形还原的一般信息.
| 归档时间: |
|
| 查看次数: |
4524 次 |
| 最近记录: |