如何检查ElasticSearch上的重复数据?

Mat*_*lde 5 search deduplication elasticsearch

当存储一些文档时,它应该存储不存在而忽略其余文件(应该在应用程序级别完成,也许检查文档的id是否已经存在,等等?)

dad*_*net 8

以下是文档中所述的内容:

操作类型

索引操作还接受可用于强制创建操作的op_type,允许"put-if-absent"行为.使用create时,如果索引中已存在该id的文档,则索引操作将失败.

以下是使用op_type参数的示例:

$ curl -XPUT 'http://localhost:9200/twitter/tweet/1?op_type=create' -d '{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elastic Search"
}'
Run Code Online (Sandbox Code Playgroud)

指定create的另一个选项是使用以下uri:

$ curl -XPUT 'http://localhost:9200/twitter/tweet/1/_create' -d '{
    "user" : "kimchy",
    "post_date" : "2009-11-15T14:12:12",
    "message" : "trying out Elastic Search"
}'
Run Code Online (Sandbox Code Playgroud)