我们有一个现有的搜索功能,它涉及SQL Server中多个表的数据.这会导致我们的数据库负载过重,所以我试图找到一种更好的方法来搜索这些数据(它不会经常更改).我使用包含120万条记录的导入,一直在使用Logstash和Elasticsearch大约一周.我的问题基本上是"如何使用我的'主键'更新现有文档"?
CSV数据文件(管道分隔)如下所示:
369|90045|123 ABC ST|LOS ANGELES|CA
368|90045|PVKA0010|LA|CA
367|90012|20000 Venice Boulvd|Los Angeles|CA
365|90045|ABC ST 123|LOS ANGELES|CA
363|90045|ADHOCTESTPROPERTY|DALES|CARun Code Online (Sandbox Code Playgroud)
我的logstash配置如下所示:
input {
stdin {
type => "stdin-type"
}
file {
path => ["C:/Data/sample/*"]
start_position => "beginning"
}
}
filter {
csv {
columns => ["property_id","postal_code","address_1","city","state_code"]
separator => "|"
}
}
output {
elasticsearch {
embedded => true
index => "samples4"
index_type => "sample"
}
}Run Code Online (Sandbox Code Playgroud)
elasticsearch中的文档,如下所示:
{
"_index": "samples4",
"_type": "sample",
"_id": "64Dc0_1eQ3uSln_k-4X26A",
"_score": 1.4054651,
"_source": {
"message": [
"369|90045|123 ABC ST|LOS …Run Code Online (Sandbox Code Playgroud)