使用Elasticsearch查询字段的所有唯一值

kir*_*ran 30 search elasticsearch

如何使用Elasticsearch搜索给定字段的所有唯一值?

我有这样的查询select full_name from authors,所以我可以在表单上向用户显示列表.

jav*_*nna 18

您可以在"full_name"字段中创建术语构面.但是为了正确地执行此操作,您需要确保在索引时不对其进行标记,否则构面中的每个条目都将是字段内容的一部分.您很可能需要在映射中将其配置为"not_analyzed".如果您还在搜索它并且仍想要对其进行标记,则可以使用多字段以两种不同的方式对其进行索引.

您还需要考虑到,取决于作为full_name字段一部分的唯一术语的数量,此操作可能很昂贵并且需要相当多的内存.


Gar*_*auh 12

对于Elasticsearch 1.0及更高版本,您可以利用terms aggregation这一点,

查询DSL:

{
  "aggs": {
    "NAME": {
      "terms": {
        "field": "",
        "size": 10
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

一个真实的例子:

{
  "aggs": {
    "full_name": {
      "terms": {
        "field": "authors",
        "size": 0
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

然后,您可以获得所有独特的authors字段值.size = 0表示不限制术语数(这要求es为1.1.0或更高版本).

响应:

{
    ...

    "aggregations" : {
        "full_name" : {
            "buckets" : [
                {
                    "key" : "Ken",
                    "doc_count" : 10
                },
                {
                    "key" : "Jim Gray",
                    "doc_count" : 10
                },
            ]
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

请参阅Elasticsearch术语聚合.

  • @ neustart47 full_name只是聚合的名称 (2认同)

Dhi*_*ani 6

直觉: 用 SQL 术语来说:

Select distinct full_name from authors;

相当于

Select full_name from authors group by full_name;

因此,我们可以使用 ElasticSearch 中的分组/聚合语法来查找不同的条目。

假设以下是存储在elasticsearch中的结构:

[{
    "author": "Brian Kernighan"
  },
  {
    "author": "Charles Dickens"
  }]
Run Code Online (Sandbox Code Playgroud)

什么不起作用: 简单聚合

{
  "aggs": {
    "full_name": {
      "terms": {
        "field": "author"
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

{
  "error": {
    "root_cause": [
      {
        "reason": "Fielddata is disabled on text fields by default...",
        "type": "illegal_argument_exception"
      }
    ]
  }
}
Run Code Online (Sandbox Code Playgroud)

神奇之处在于:在字段中 附加.keyword

{
  "aggs": {
    "full_name": {
      "terms": {
        "field": "author.keyword"
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

示例输出可能是:

{
  "aggregations": {
    "full_name": {
      "buckets": [
        {
          "doc_count": 372,
          "key": "Charles Dickens"
        },
        {
          "doc_count": 283,
          "key": "Brian Kernighan"
        }
      ],
      "doc_count": 1000
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

额外提示:

让我们假设相关字段嵌套如下:

[{
    "authors": [{
        "details": [{
            "name": "Brian Kernighan"
          }]
      }]
  },
  {
    "authors": [{
        "details": [{
            "name": "Charles Dickens"
          }]
      }]
  }
]
Run Code Online (Sandbox Code Playgroud)

现在正确的查询变为:

{
  "aggregations": {
    "full_name": {
      "aggregations": {
        "author_details": {
          "terms": {
            "field": "authors.details.name"
          }
        }
      },
      "nested": {
        "path": "authors.details"
      }
    }
  },
  "size": 0
}
Run Code Online (Sandbox Code Playgroud)


sam*_*sam 5

为 Elasticsearch 5.2.2 工作

curl -XGET  http://localhost:9200/articles/_search?pretty -d '
{
    "aggs" : {
        "whatever" : {
            "terms" : { "field" : "yourfield", "size":10000 }
        }
    },
    "size" : 0
}'
Run Code Online (Sandbox Code Playgroud)

"size":10000方式获得(最多)10000个独特的价值观。如果没有这个,如果您有 10 个以上的唯一值,则只返回 10 个值。

"size":0结果的意思是,"hits"将不包含任何文件。默认情况下,返回 10 个文档,这是我们不需要的。


参考:桶项聚合

另请注意,根据此页面,方面已被 Elasticsearch 1.0 中的聚合取代,聚合是方面的超集。