tom*_*zon 9 nested filter aggregation elasticsearch
我在过滤后汇总结果时遇到问题.我想我走在正确的轨道上,但我觉得我在追逐自己的尾巴.
以下是它的外观:
PUT /my_index
{
"mappings": {
"reporting": {
"properties": {
"events": {
"type": "nested",
"properties": {
"name": { "type": "string", "index" : "not_analyzed" },
"date": { "type": "date" }
}
}
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
所以,我的文档看起来像:
{
"events": [
{ "name": "INSTALL", "date": "2014-11-01" },
{ "name": "UNINSTALL", "date": "2014-11-03" },
{ "name": "INSTALL", "date": "2014-11-04" },
...
]
}
Run Code Online (Sandbox Code Playgroud)
现在,当我索引一些数据时,例如:
PUT /my_index/reporting/1
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-01"
},
{
"name": "UNINSTALL",
"date": "2014-11-05"
}
]
}
PUT /my_index/reporting/2
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-01"
},
{
"name": "UNINSTALL",
"date": "2014-11-03"
}
]
}
PUT /my_index/reporting/3
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-01"
},
{
"name": "UNINSTALL",
"date": "2014-11-02"
}
]
}
PUT /my_index/reporting/4
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-01"
},
{
"name": "UNINSTALL",
"date": "2014-11-02"
},
{
"name": "INSTALL",
"date": "2014-11-03"
}
]
}
PUT /my_index/reporting/5
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-01"
},
{
"name": "UNINSTALL",
"date": "2014-11-03"
},
{
"name": "INSTALL",
"date": "2014-11-03"
}
]
}
PUT /my_index/reporting/6
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-03"
},
{
"name": "UNINSTALL",
"date": "2014-11-03"
},
{
"name": "INSTALL",
"date": "2014-11-05"
}
]
}
PUT /my_index/reporting/7
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-02"
},
{
"name": "UNINSTALL",
"date": "2014-11-03"
},
{
"name": "INSTALL",
"date": "2014-11-05"
}
]
}
PUT /my_index/reporting/8
{
"events": [
{
"name": "INSTALL",
"date": "2014-11-01"
}
]
}
Run Code Online (Sandbox Code Playgroud)
我希望得到那些在2014-11-02之后安装并且没有卸载的人(因此,UNINSTALL在2014-11-02之前或者没有UNINSTALL事件),并在date_histogram意义上对它们进行分组(拥有"日期" - >"计数"数据的存储桶.
我设法在这个嵌套数据上编写过滤器,所以我可以得到那个过滤结果,但是当涉及到直方图聚合时,我一直在追逐我的尾巴.
这是我卡住的地方.
GET /my_index/reporting/_search
{
"query": {
"filtered": {
"query": {
"match_all": {}
},
"filter": {
"bool": {
"must": [
{
"nested": {
"path": "events",
"filter": {
"bool": {
"must": [
{
"term": {
"name": "INSTALL"
}
},
{
"range": {
"date": {
"gte": "2014-11-02"
}
}
}
]
}
}
}
},
{
"nested": {
"path": "events",
"filter": {
"bool": {
"should": [
{
"bool": {
"must_not": [
{
"term": {
"name": "UNINSTALL"
}
}
]
}
},
{
"bool": {
"must": [
{
"term": {
"name": "UNINSTALL"
}
},
{
"range": {
"date": {
"lt": "2014-11-02"
}
}
}
]
}
}
]
}
}
}
}
]
}
}
}
},
"aggregations": {
"filtered_result": {
"filter": {
"bool": {
"must": [
{
"nested": {
"path": "events",
"filter": {
"bool": {
"must": [
{
"term": {
"name": "INSTALL"
}
},
{
"range": {
"date": {
"gte": "2014-11-02"
}
}
}
]
}
}
}
},
{
"nested": {
"path": "events",
"filter": {
"bool": {
"should": [
{
"bool": {
"must_not": [
{
"term": {
"name": "UNINSTALL"
}
}
]
}
},
{
"bool": {
"must": [
{
"term": {
"name": "UNINSTALL"
}
},
{
"range": {
"date": {
"lt": "2014-11-02"
}
}
}
]
}
}
]
}
}
}
}
]
}
},
"aggs": {
"result": {
"nested": {
"path": "events"
},
"aggs": {
"NAME": {
"terms": {
"field": "events.date",
"format": "yyyy-MM-dd",
"order": {
"_term": "asc"
}
}
}
}
}
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
我的结果如下:
... omitted 4 documents that match filter criteria ...
"aggregations": {
"filtered_result": {
"doc_count": 4, <---- this is ok, I really have 4 docs that match criteria
"result": {
"doc_count": 12, <---- those 4 documents really have 12 events (together)
"NAME": {
"buckets": [
{
"key": 1414800000000,
"key_as_string": "2014-11-01",
"doc_count": 2
},
{
"key": 1414886400000,
"key_as_string": "2014-11-02",
"doc_count": 2
},
{
"key": 1414972800000,
"key_as_string": "2014-11-03",
"doc_count": 6
},
{
"key": 1415145600000,
"key_as_string": "2014-11-05",
"doc_count": 2
}
]
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
我希望得到类似的东西:
"buckets": [
{
"key_as_string": "2014-11-02",
"doc_count": 0
},
{
"key_as_string": "2014-11-03",
"doc_count": 2
},
{
"key_as_string": "2014-11-04",
"doc_count": 0
},
{
"key_as_string": "2014-11-05",
"doc_count": 2
}
]
Run Code Online (Sandbox Code Playgroud)
基本上,匹配的标准4号文件是由分布式的日期时发生的标准,2个文档的"2011-11-03",并在"2014年11月5日"两个文档(即具有事件"安装" 2014-11后4号文件-02并且之后没有卸载事件(它们仍然安装).
这是部分答案。
有一个主要问题:根据您的数据,实际上没有符合您要求的文档,所以我添加了一些:
curl -XPUT 'localhost:9200/my_index/reporting/9' -d '{
"events": [
{
"name": "INSTALL",
"date": "2014-11-03"
}
]
}'
curl -XPUT 'localhost:9200/my_index/reporting/10' -d '{
"events": [
{
"name": "INSTALL",
"date": "2014-11-03"
},
{
"name": "UNINSTALL",
"date": "2014-11-01"
}
]
}'
Run Code Online (Sandbox Code Playgroud)
为了能够应用逻辑,我更改了架构,以便事件也包含在父级中 - 这样您就可以搜索“没有任何卸载事件”。因为问题是,在嵌套搜索中,您始终只查看一个事件,因此您无法进行任何类型的“报告范围”搜索。
curl -XPUT 'localhost:9200/my_index' -d '{
"mappings": {
"reporting": {
"properties": {
"events": {
"type": "nested", "include_in_root": true,
"properties": {
"name": { "type": "string", "index" : "not_analyzed" },
"date": { "type": "date" }
}
}
}
}
}
}'
Run Code Online (Sandbox Code Playgroud)
现在来看看查询本身。看来使用嵌套过滤器时,不能直接进入“过滤器”。您必须首先执行“查询>过滤>过滤”操作。
一般来说,编写长的 Elasticsearch 查询的一个技巧 - 请记住,除了“must”和“must_not”之外,还有“and”和“or”运算符 - 就是像代码一样写出来。在你的情况下:
has_one(event.name == 'INSTALL' && event.date >= '2014-11-02')
&& has_none(event.name == 'UNINSTALL')
&& has_none(event.name == 'UNINSTALL' && event.date >= '2014-11-02')
Run Code Online (Sandbox Code Playgroud)
或者:
has_one(event.name == 'INSTALL' && event.date >= '2014-11-02')
&& ( has_none(event.name == 'UNINSTALL')
|| has_only(event.name == 'UNINSTALL' && event.date >= '2014-11-02') )
Run Code Online (Sandbox Code Playgroud)
我能够应用除最后一个 has_only / has_none 之外的所有内容。为此,您可能想尝试使用子文档。在那里,您至少可以在must_not bool 下使用has_child 过滤器。
当前查询:
GET /my_index/reporting/_search
{
"query": {
"filtered": {
"query": {
"match_all": {}
},
"filter": {
"and": {
"filters": [
{
"or": {
"filters": [
{
"bool": {
"must_not": [
{
"term": {
"events.name": "UNINSTALL"
}
}
]
}
},
{
"nested": {
"path": "events",
"query": {
"filtered": {
"filter": {
"bool": {
"must": [
{
"term": {
"name": "UNINSTALL"
}
},
{
"range": {
"date": {
"lt": "2014-11-02"
}
}
}
]
}
}
}
}
}
}
]
}
},
{
"nested": {
"path": "events",
"query": {
"filtered": {
"filter": {
"bool": {
"must": [
{
"term": {
"name": "INSTALL"
}
},
{
"range": {
"date": {
"gte": "2014-11-02"
}
}
}
]
}
}
}
}
}
}
]
}
}
}
},
"aggregations": {
"filtered_result": {
"filter": {
"and": {
"filters": [
{
"or": {
"filters": [
{
"bool": {
"must_not": [
{
"term": {
"events.name": "UNINSTALL"
}
}
]
}
},
{
"nested": {
"path": "events",
"query": {
"filtered": {
"filter": {
"bool": {
"must": [
{
"term": {
"name": "UNINSTALL"
}
},
{
"range": {
"date": {
"lt": "2014-11-02"
}
}
}
]
}
}
}
}
}
}
]
}
},
{
"nested": {
"path": "events",
"query": {
"filtered": {
"filter": {
"bool": {
"must": [
{
"term": {
"name": "INSTALL"
}
},
{
"range": {
"date": {
"gte": "2014-11-02"
}
}
}
]
}
}
}
}
}
}
]
}
},
"aggs": {
"result": {
"nested": {
"path": "events"
},
"aggs": {
"NAME": {
"terms": {
"field": "date",
"format": "yyyy-MM-dd",
"order": {
"_term": "asc"
}
}
}
}
}
}
}
}
}
Run Code Online (Sandbox Code Playgroud)