小编Sag*_*ana的帖子

Elasticsearch"pattern_replace",在分析时替换空格

基本上我想删除所有空格并将整个字符串标记为单个标记.(稍后我将使用nGram.)

这是我的索引设置:

"settings": {
 "index": {
  "analysis": {
    "filter": {
      "whitespace_remove": {
        "type": "pattern_replace",
        "pattern": " ",
        "replacement": ""
      }
    },
    "analyzer": {
      "meliuz_analyzer": {
        "filter": [
          "lowercase",
          "whitespace_remove"
        ],
        "type": "custom",
        "tokenizer": "standard"
      }
    }
  }
}

Run Code Online (Sandbox Code Playgroud)

相反的"pattern": " ",我试过"pattern": "\\u0020"和\\s,太.

但是,当我分析文本"beleza na web"时,它仍会创建三个单独的标记:"beleza","na"和"web",而不是一个单独的"belezanaweb".

whitespace tokenize removing-whitespace elasticsearch

Sag*_*ana

lucky-day

3
推荐指数

1
解决办法

6946
查看次数