如何使用 include 和 regex 正确查询 Elasticsearch 中术语聚合值的内部？

Question

如何使用 include 和 regex 正确查询 Elasticsearch 中术语聚合值的内部？

mcl*_*han 5 elasticsearch elasticsearch-aggregation

如何有效地过滤/搜索聚合结果？

想象一下您在弹性搜索中有 100 万个文档。在这些文档中，您有一个 multi_field (keyword, text) tags：

{
  ...
  tags: ['Race', 'Racing', 'Mountain Bike', 'Horizontal'],
  ...
},
{
  ...
  tags: ['Tracey Chapman', 'Silverfish', 'Blue'],
  ...
},
{
  ...
  tags: ['Surfing', 'Race', 'Disgrace'],
  ...
},

Run Code Online (Sandbox Code Playgroud)

您可以将这些值用作针对查询的过滤器（方面），以仅提取包含此标签的文档：

...
"filter": [
  {
    "terms": {
      "tags": [
        "Race"
      ]
    }
  },
  ...
]

Run Code Online (Sandbox Code Playgroud)

但您希望用户能够查询可能的标签过滤器。因此，如果用户键入，race返回结果应显示（来自前面的示例），['Race', 'Tracey Chapman', 'Disgrace']。这样，用户就可以查询要使用的过滤器。为了实现这一点，我必须使用聚合：

{
  "aggs": {
    "topics": {
      "terms": {
        "field": "tags",
        "include": ".*[Rr][Aa][Cc][Ee].*", // I have to dynamically form this
        "size": 6
      }
    }
  },
  "size": 0
}

Run Code Online (Sandbox Code Playgroud)

这正是我所需要的！但它很慢，非常慢。我尝试添加execution_hint，它对我没有帮助。

您可能会想，“只需在聚合之前使用查询即可！” 但问题是它会提取该查询中所有文档的所有值。这意味着，您可以显示完全不相关的标签。race如果我在聚合之前查询，并且没有使用包含正则表达式，我最终会得到所有其他值，例如'Horizontal', etc...

我怎样才能重写这个聚合以更快地工作？有更好的方法来写这个吗？我真的必须为值创建一个单独的索引吗？（悲伤的脸）似乎这是一个常见问题，但通过文档和谷歌搜索没有找到答案。

Answer 1

Joe*_*ook 4

您当然不需要仅针对值的单独索引......

这是我的看法：

您使用正则表达式所做的事情本质上就是分词器应该做的事情——即构造子字符串（或N 元语法），以便稍后可以将它们作为目标。
这意味着关键字Race需要被标记为 n-grams ["rac", "race", "ace"]。（少于 3 个字符实际上没有意义 - 大多数自动完成库选择忽略少于 3 个字符，因为可能的匹配项膨胀得太快。）

Elasticsearch 提供了N-gram 分词器，但我们需要将默认的索引级别设置max_ngram_diff从 1 增加到（任意）10，因为我们希望捕获尽可能多的 ngram：

PUT tagindex
{
  "settings": {
    "index": {
      "max_ngram_diff": 10
    },
    "analysis": {
      "analyzer": {
        "my_ngrams_analyzer": {
          "tokenizer": "my_ngrams",
          "filter": [ "lowercase" ]
        }
      },
      "tokenizer": {
        "my_ngrams": {
          "type": "ngram",
          "min_gram": 3,
          "max_gram": 10,
          "token_chars": [ "letter", "digit" ]
        }
      }
    }
  },
  { "mappings": ... }                                 --> see below
}

Run Code Online (Sandbox Code Playgroud)

当您的字段是关键字列表时，如果不求助于完全匹配或正则表达式（您已经在使用）的选项，就tags不可能在该字段上进行聚合。现在，我们不能保证完全匹配，但我们也不想使用正则表达式！这就是为什么我们需要使用嵌套列表来单独处理每个标签。include

现在，嵌套列表预计包含对象，因此

{ "tags": ["Race", "Racing", "Mountain Bike", "Horizontal"] }
Run Code Online (Sandbox Code Playgroud)
将需要转换为

{ "tags": [ { "tag": "Race" }, { "tag": "Racing" }, { "tag": "Mountain Bike" }, { "tag": "Horizontal" } ] }
Run Code Online (Sandbox Code Playgroud)
之后，我们将继续进行多字段映射，保持原始标签不变，但还添加一个.tokenized要搜索的字段和一个.keyword要聚合的字段：

"index": { ... }, "analysis": { ... }, "mappings": { "properties": { "tags": { "type": "nested", "properties": { "tag": { "type": "text", "fields": { "tokenized": { "type": "text", "analyzer": "my_ngrams_analyzer" }, "keyword": { "type": "keyword" } } } } } } }
Run Code Online (Sandbox Code Playgroud)
然后我们将添加调整后的标签文档：

POST tagindex/_doc {"tags":[{"tag":"Race"},{"tag":"Racing"},{"tag":"Mountain Bike"},{"tag":"Horizontal"}]} POST tagindex/_doc {"tags":[{"tag":"Tracey Chapman"},{"tag":"Silverfish"},{"tag":"Blue"}]} POST tagindex/_doc {"tags":[{"tag":"Surfing"},{"tag":"Race"},{"tag":"Disgrace"}]}
Run Code Online (Sandbox Code Playgroud)
并应用嵌套过滤条件聚合：

GET tagindex/_search { "aggs": { "topics_parent": { "nested": { "path": "tags" }, "aggs": { "topics": { "filter": { "term": { "tags.tag.tokenized": "race" } }, "aggs": { "topics": { "terms": { "field": "tags.tag.keyword", "size": 100 } } } } } } }, "size": 0 }
Run Code Online (Sandbox Code Playgroud)
屈服

{ ... "topics_parent" : { ... "topics" : { ... "topics" : { ... "buckets" : [ { "key" : "Race", "doc_count" : 2 }, { "key" : "Disgrace", "doc_count" : 1 }, { "key" : "Tracey Chapman", "doc_count" : 1 } ] } } } }
Run Code Online (Sandbox Code Playgroud)
注意事项

为了让它工作，你必须重新索引

ngram 会增加存储空间——取决于每个文档有多少个标签，这可能会成为一个问题

嵌套字段在内部被视为“单独的文档”，因此这也会影响磁盘空间

PS：这是一个有趣的用例。让我知道实施情况如何！

归档时间：	5 年前
查看次数：	1163 次
最近记录：	3 年，4 月前