小编Tej*_*jas的帖子

理解Apache Lucene的评分算法

我已经使用 Hibernate Search 几个月了,但我仍然无法消化它带来的相关性。我对它返回的结果总体满意,但即使是最简单的测试也不能满足我的期望。

第一个测试是使用术语频率(tf)。数据:

  • 单词
  • 字字
  • 词词词
  • 词词词词
  • 词词词词词
  • 词词词词词词词

我得到的结果:

  1. 单词
  2. 词词词词
  3. 词词词词词
  4. 词词词词词词词
  5. 字字
  6. 词词词

我真的对这种得分效应感到困惑。我的查询很复杂,但是由于这个测试没有涉及任何其他字段,它可以简化如下:booleanjunction.should(phraseQuery).should(keywordQuery).should(fuzzyQuery)

我有如下分析器:

 StandardFilterFactory
 LowerCaseFilterFactory
 StopFilterFactory
 SnowballPorterFilterFactory for english
Run Code Online (Sandbox Code Playgroud)

我的解释对象 https://jsfiddle.net/o51kh3og/

lucene search solr full-text-search hibernate-search

2
推荐指数
1
解决办法
1894
查看次数