基本上我想删除所有空格并将整个字符串标记为单个标记.(稍后我将使用nGram.)
这是我的索引设置:
"settings": {
"index": {
"analysis": {
"filter": {
"whitespace_remove": {
"type": "pattern_replace",
"pattern": " ",
"replacement": ""
}
},
"analyzer": {
"meliuz_analyzer": {
"filter": [
"lowercase",
"whitespace_remove"
],
"type": "custom",
"tokenizer": "standard"
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
相反的"pattern": " ",我试过"pattern": "\\u0020"和\\s,太.
但是,当我分析文本"beleza na web"时,它仍会创建三个单独的标记:"beleza","na"和"web",而不是一个单独的"belezanaweb".