Mne*_*quo 5 pipeline rename elasticsearch reindex
我在 elasticsearch (5.5.1) 中有一个字段,我需要重命名它,因为该名称包含一个 '.' 它导致了各种问题。我要重命名的字段嵌套在另一个字段中。
我正在尝试在摄取管道中使用重命名处理器来执行重新索引,如下所述:https : //stackoverflow.com/a/43142634/5114
这是我的管道模拟请求(您可以将此逐字复制到 Kibana 中的 Dev Tools 实用程序中进行测试):
POST _ingest/pipeline/_simulate
{
"pipeline" : {
"description": "rename nested fields to remove dot",
"processors": [
{
"rename" : {
"field" : "message.message.group1",
"target_field" : "message_group1"
}
},
{
"rename" : {
"field" : "message.message.group2",
"target_field" : "message.message_group2"
}
}
]
},
"docs":[
{
"_type": "status",
"_id": "1509533940000-m1-bfd7183bf036bd346a0bcf2540c05a70fbc4d69e",
"_version": 5,
"_score": null,
"_source": {
"message": {
"_job-id": "AV8wHJEaa4J0sFOfcZI5",
"message.group1": 0,
"message.group2": "foo"
},
"timestamp": 1509533940000
}
}
]
}
Run Code Online (Sandbox Code Playgroud)
问题是在尝试使用我的管道时出现错误:
{
"docs": [
{
"error": {
"root_cause": [
{
"type": "exception",
"reason": "java.lang.IllegalArgumentException: java.lang.IllegalArgumentException: field [message.message.group1] doesn't exist",
"header": {
"processor_type": "rename"
}
}
],
"type": "exception",
"reason": "java.lang.IllegalArgumentException: java.lang.IllegalArgumentException: field [message.message.group1] doesn't exist",
"caused_by": {
"type": "illegal_argument_exception",
"reason": "java.lang.IllegalArgumentException: field [message.message.group1] doesn't exist",
"caused_by": {
"type": "illegal_argument_exception",
"reason": "field [message.message.group1] doesn't exist"
}
},
"header": {
"processor_type": "rename"
}
}
}
]
}
Run Code Online (Sandbox Code Playgroud)
我认为问题是由字段“message.group1”在另一个字段(“message”)中引起的。我不确定如何在处理器的上下文中引用我想要的字段。嵌套字段、包含点的字段和包含点的嵌套字段的情况似乎存在歧义。
我正在寻找引用这些字段的正确方法,或者如果 Elasticsearch 无法执行我想要的操作,请确认这是不可能的。如果 Elasticsearch 可以做到这一点,那么它可能会运行得非常快,否则我必须编写一个外部脚本来拉取文档、转换它们,然后将它们重新保存到新索引中。
好吧,研究一下 Elasticsearch 代码,我想我知道为什么这不起作用了。
首先我们看看Elasticsearch重命名处理器: https://github.com/elastic/elasticsearch/blob/9eff18374d68355f6acb58940a796268c9b6f2de/modules/ingest-common/src/main/java/org/elasticsearch/ingest/common/RenameProcessor.java#L76 -L84
Object value = document.getFieldValue(field, Object.class);
document.removeField(field);
try {
document.setFieldValue(targetField, value);
} catch (Exception e) {
// setting the value back to the original field shouldn't as we just fetched it from that field:
document.setFieldValue(field, value);
throw e;
}
Run Code Online (Sandbox Code Playgroud)
其作用是查找要重命名的字段,获取其值,然后删除该字段并添加具有相同值但具有新名称的新字段。
现在我们看看 document.getFieldValue 中发生了什么: https://github.com/elastic/elasticsearch/blob/9eff18374d68355f6acb58940a796268c9b6f2de/core/src/main/java/org/elasticsearch/ingest/IngestDocument.java#L101-L108
public <T> T getFieldValue(String path, Class<T> clazz) {
FieldPath fieldPath = new FieldPath(path);
Object context = fieldPath.initialContext;
for (String pathElement : fieldPath.pathElements) {
context = resolve(pathElement, path, context);
}
return cast(path, context, clazz);
}
Run Code Online (Sandbox Code Playgroud)
请注意,它使用 FieldPath 对象来表示文档中字段的路径。
现在看看 FieldPath 如何表示路径: https://github.com/elastic/elasticsearch/blob/9eff18374d68355f6acb58940a796268c9b6f2de/core/src/main/java/org/elasticsearch/ingest/IngestDocument.java#L688
this.pathElements = newPath.split("\\.");
Run Code Online (Sandbox Code Playgroud)
这是在任何“.”上分割路径。字符,因为它是字段名称中路径元素之间的分隔符。
问题是源文档有一个名为“message.group1”的字段,因此我们需要能够引用它。只是在“.”上分割路径。不考虑包含“.”的字段名称。在名字里。为此,我们需要一种更像 javascript 的语法,其中我们可以使用括号和引号来使点具有不同的含义。
如果将源文件全部进行改造,那么就会出现一个“.”。字段名称中的内容会在保存之前将该字段转换为对象,然后此路径方案将起作用。但源文档的字段名称包含“.” 我们无法在某些情况下引用它们。
为了解决我的问题并重新索引我的索引,我编写了一个 python 脚本,该脚本提取一批文档,转换它们并将它们批量插入到新索引中。这基本上就是 Elasticsearch reindex api 所做的事情,但我是用 python 来做的。
| 归档时间: |
|
| 查看次数: |
2159 次 |
| 最近记录: |