Elasticsearch:在我的英语分析仪上添加同义词过滤器

mel*_*mel 2 lucene indexing lexical-analysis synonym elasticsearch

我有一个带有字段描述的索引,其分析如下:

"description":{
      "analyzer" : "english",
      "type" : "string"
}
Run Code Online (Sandbox Code Playgroud)

我已经在一个文件onyms.txt中定义了一个同义词字典,其中包含:

ipod, i-pod, i pod => i-pod
Run Code Online (Sandbox Code Playgroud)

我想将此同义词词典添加到我的分析器中,但是我不知道该怎么做。我应该定义一个自定义分析器吗?但是如果这样做的话,由于这种定制,我将偏离当前的索引编制。

fem*_*gon 6

是的,您应该定义一个自定义分析器。您可以从标准的英语分析器开始,并在其中添加同义词过滤器:

{
  "settings": {
    "analysis": {
      "filter": {
        "english_stop": {
          "type":       "stop",
          "stopwords":  "_english_" 
        },
        "english_keywords": {
          "type":       "keyword_marker",
          "keywords":   [] 
        },
        "english_stemmer": {
          "type":       "stemmer",
          "language":   "english"
        },
        "english_possessive_stemmer": {
          "type":       "stemmer",
          "language":   "possessive_english"
        },
        "my_synonyms" : {
          "type" : "synonym",
          "synonyms_path" : "path/to/synonym.txt"
        }
      },
      "analyzer": {
        "custom_english": {
          "tokenizer":  "standard",
          "filter": [
            "english_possessive_stemmer",
            "lowercase",
            "my_synonyms",
            "english_stop",
            "english_keywords",
            "english_stemmer"
          ]
        }
      }
    }
  }
}
Run Code Online (Sandbox Code Playgroud)

至于它是否会发散,是的。如果您将同义词用作索引时间,则新索引的数据将应用同义词过滤器,而现有数据则不会。如果要使对索引时间分析的更改一致地应用,则需要重新索引数据。

如果仅对您进行分析更改search_analyzer,则无需重新编制索引。