Lucene标准分析仪与雪球

alc*_*cal 21 lucene lucene.net nlp full-text-search snowball

刚刚开始使用Lucene.Net.我使用标准分析器索引100,000行,运行一些测试查询,并注意到如果原始术语是单数,则多个查询不会返回结果.据我所知,雪球分析仪增加了支持,这听起来不错.但是,我想知道是否有超过标准的雪球锣有任何缺点?我是否会因为它而失去任何东西?还有其他分析仪要考虑吗?

Avi*_*Avi 18

是的,通过使用诸如Snowball之类的词干分析器,您将丢失有关文本原始形式的信息.有时这会很有用,有时候不会.

例如,Snowball将"组织"限制为"组织",因此搜索"组织"将返回带有"器官"的结果,而没有任何得分惩罚.

这是否适合您取决于您​​的内容以及您支持的查询类型(例如,搜索是非常基本的,还是用户非常复杂并使用您的搜索来准确过滤结果).您可能还想研究不那么激进的词干分析器,例如KStem.


Ska*_*rab 6

雪球分析仪将增加你的回忆,因为它比标准的分析更为积极.因此,您需要评估搜索结果,以查看是否需要提高数据的召回率或精确度.