标签: significant-terms

有效地计算SQL中的重要术语

我刚刚向ElasticSearch介绍了重要的术语聚合,并且对这个度量标准的优秀和相关程度感到非常惊讶.对于那些不熟悉它的人来说,这是一个非常简单的概念 - 对于给定的查询(前景集),给定的属性根据背景集的统计显着性进行评分.

例如,如果我们要查询英国交通警察中最重要的犯罪类型:

C = 5,064,554 -- total number of crimes
T =    66,799 -- total number of bicycle thefts
S =    47,347 -- total number of crimes in British Transport Police
I =     3,640 -- total number of bicycle thefts in British Transport Police
Run Code Online (Sandbox Code Playgroud)

通常,自行车盗窃仅占犯罪的1%(66,799/5,064,554),但对于处理铁路和车站犯罪的英国交通警察来说,7%的犯罪(3,640/47,347)是自行车盗窃.频率增加了7倍.

"自行车盗窃"的意义在于 [(I/S) - (T/C)] * [(I/S) / (T/C)] = 0.371...

哪里:

  • C是集合中所有文档的编号
  • S是与查询匹配的文档数
  • T是具有特定术语的文档数
  • 是与ST相交的文档数

由于实际原因(我拥有大量的数据和巨大的ElasticSearch内存要求),我希望在SQL中或直接在代码中实现重要的术语聚合.

我一直在寻找一些方法来潜在地优化这种查询,特别是降低内存需求和提高查询速度,但代价是一些错误余量 - 但到目前为止我还没有破解它.在我看来,这:

  • 变量CS …

sql query-optimization aggregation elasticsearch significant-terms

13
推荐指数
1
解决办法
430
查看次数

ElasticSearch circuit_breaking_exception(数据太大)与重要的术语聚合

查询:

{
  "aggregations": {
    "sigTerms": {
      "significant_terms": {
        "field": "translatedTitle"
      },
      "aggs": {
        "assocs": {
          "significant_terms": {
            "field": "translatedTitle"
          }
        }
      }
    }
  },
  "size": 0,
  "from": 0,
  "query": {
    "range": {
      "timestamp": {
        "lt": "now+1d/d",
        "gte": "now/d"
      }
    }
  },
  "track_scores": false
}
Run Code Online (Sandbox Code Playgroud)

错误:

{
  "bytes_limit": 6844055552,
  "bytes_wanted": 6844240272,
  "reason": "[request] Data too large, data for [<reused_arrays>] would be larger than limit of [6844055552/6.3gb]",
  "type": "circuit_breaking_exception"
}
Run Code Online (Sandbox Code Playgroud)

索引大小为 5G。集群需要多少内存来执行这个查询?

elasticsearch significant-terms

9
推荐指数
3
解决办法
3万
查看次数

Elasticsearch重要术语聚合:doc_count和bg_count的含义

我无法找到文档来解释重要术语聚合响应中的doc_count和字段。bg_count

例如,我希望,如果我不设置背景过滤器,则bg_count应该是索引中的文档总数。然而,我看到的是bg_count每个结果都不相同,并且它与文档总数相差甚远。

我假设这doc_count是包含返回的文档的数量key.

这些值的实际含义是什么?我在哪里可以找到更完整的文档?

elasticsearch significant-terms

4
推荐指数
1
解决办法
1488
查看次数