Elasticsearch:按日期排序字段(降序):gauss或field_value_factor？

Question

Elasticsearch:按日期排序字段(降序):gauss或field_value_factor？

我有一个关于根据创建日期修改得分文档的问题.我尝试过高斯函数和field_value_factor.

第一个是(所有查询条款):

@search_definition[:query] = {
                           function_score:{
                              query: {
                                  bool: {
                                      must: [
                                          {
                                  query_string: {
                                      query: <query_term>,
                                      fields: %w( field_1ˆ2
                                                         field_2ˆ3
                                                         ...
                                                         field_n^2),
                                      analyze_wildcard: true,
                                      auto_generate_phrase_queries: false,
                                      analyzer: 'brazilian',
                                      default_operator: 'AND'
                                  }
                              }
                             ],
                            filter: {
                                       bool: {
                                            should: [
                                                 { term: {"boolean_field": false}},
                                                 { terms:     {"array_field_1": options[:key].ids}},
                  { term: {"array_field_2.id": options[:key].id}}
                ]
             }
        }
                            }
                          },
                                gauss:{
                                  date_field: {
                                      scale: "1d",
                                      decay: "0.5"
                                  }
                                }
                  }
          }

Run Code Online (Sandbox Code Playgroud)

通过这种配置,我告诉我们最后的文件必须具有更高的分数.当我用它执行查询时,结果完全相反!最早的文件首先被退回.即使我改变原点

origin: "2010-05-01 00:00:00"

Run Code Online (Sandbox Code Playgroud)

这是第一个文件的日期,最早的文件也是首先被检索的.我究竟做错了什么？

使用field_value_factor,事情会更好,但还不是我在等什么......(所有的查询子句都是)

@search_definition[:query] = {
                           function_score:{
                              query: {
                                  bool: {
                                      must: [
                                          {
                                  query_string: {
                                      query: <query_term>,
                                      fields: %w( field_1ˆ2
                                                         field_2ˆ3
                                                         ...
                                                         field_n^2),
                                      analyze_wildcard: true,
                                      auto_generate_phrase_queries: false,
                                      analyzer: 'brazilian',
                                      default_operator: 'AND'
                                  }
                              }
                             ],
                            filter: {
                                       bool: {
                                            should: [
                                                 { term: {"boolean_field": false}},
                                                 { terms:     {"array_field_1": options[:key].ids}},
                  { term: {"array_field_2.id": options[:key].id}}
                ]
             }
        }
                            }
                          },
                                field_value_factor: {
                                     field: "date_field",
                                     factor : 100,
                                      modifier: "sqrt"
                                   }

                  }
          }

Run Code Online (Sandbox Code Playgroud)

使用这个其他配置,2016年和2015年的文档将首先返回,但是从2016年开始,有大量文档的得分低于2015年的其他文档,即使我设置了一个修饰符"sqrt",因子:100!

我认为guass功能将是合适的解决方案.如何反转这个高斯结果？或者我如何增加field_value_factor以便2016年到来之前？

非常感谢,

吉列尔梅

Answer 1

Chi*_*h25 5

您可能想尝试将高斯函数内部函数参数放入并给它一个权重,如下面的查询.我也认为规模太低,可能会使很多文件得分为零.我也将衰减增加到0.8并且给予最近的文件更高的权重.您还可以使用explain api来查看评分是如何完成的.

{
    "function_score": {
        query: {
            bool: {
                must: [{
                    query_string: {
                        query: < query_term > ,
                        fields: % w(field_1ˆ2 field_2ˆ3
                            ...field_n ^ 2),
                        analyze_wildcard: true,
                        auto_generate_phrase_queries: false,
                        analyzer: 'brazilian',
                        default_operator: 'AND'
                    }
                }],
                filter: {
                    bool: {
                        should: [{
                            term: {
                                "boolean_field": false
                            }
                        }, {
                            terms: {
                                "array_field_1": options[: key].ids
                            }
                        }, {
                            term: {
                                "array_field_2.id": options[: key].id
                            }
                        }]
                    }
                }
            }
        },
        "functions": [{
            "gauss": {
                "date_field": {
                    "origin": "now"
                    "scale": "30d",
                    "decay": "0.8"
                }
            },
            "weight": 20
        }]
    }
}

Run Code Online (Sandbox Code Playgroud)

原点也应该是最新日期,而不是origin: "2010-05-01 00:00:00"试试

origin: "2016-05-01 00:00:00"

Run Code Online (Sandbox Code Playgroud)

这有帮助吗？

归档时间：	9 年，3 月前
查看次数：	1042 次
最近记录：	9 年，3 月前