过滤弹性搜索结果以仅包含基于一个字段值的唯一文档

The*_*ppo 15 elasticsearch

我的所有文档都有一个uid带有ID 的字段,用于将文档链接到用户.有多个文件相同uid.

我想对所有文档执行搜索,只返回每个唯一的最高得分文档uid.

选择相关文档的multi_match查询是简单查询.

And*_*fan 20

你需要一个top_hits聚合.

并针对您的具体情况:

{
  "query": {
    "multi_match": {
      ...
    }
  },
  "aggs": {
    "top-uids": {
      "terms": {
        "field": "uid"
      },
      "aggs": {
        "top_uids_hits": {
          "top_hits": {
            "sort": [
              {
                "_score": {
                  "order": "desc"
                }
              }
            ],
            "size": 1
          }
        }
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

上面的查询确实执行您的multi_match查询并基于汇总结果uid.对于每个uid存储桶,它只返回一个结果,但是在存储桶中的所有文档都按照_score后代顺序排序.


Cha*_*ase 5

ElasticSearch 5.3中,他们添加了对字段折叠的支持。您应该能够执行以下操作:

GET /_search
{
  "query": {
    "multi_match" : {
      "query":    "this is a test", 
      "fields": [ "subject", "message", "uid" ] 
    }
  },
  "collapse" : {
    "field" : "uid" 
  },
  "size": 20,
  "from": 100
}
Run Code Online (Sandbox Code Playgroud)

使用字段折叠而不是热门匹配的好处是可以将分页与字段折叠一起使用。