如何将html文件的转储索引到elasticsearch?

fil*_*lky 7 elasticsearch

我完全是弹性的,所以我的知识只来自elasticsearch网站,我需要帮助.我的任务是将html格式的大行数据编入弹性搜索.我已经抓取了我的数据并将其存储到磁盘上(200 000个html文件).我的问题是将所有html文件索引到elasticsearch的最简单方法是什么?我是否应该为每个文件手工制作以使弹性请求变得有弹性?例如:

curl -XPUT 'http://localhost:9200/registers/tomas/1' -d '{
    "user" : "tomasko",
    "post_date" : "2009-11-15T14:12:12",
    "field 1" : "field data"
    "field 2" : "field 2 data"
}'
Run Code Online (Sandbox Code Playgroud)

第二个问题是,如果我必须解析HTML文档以检索JSON字段1的数据,就像在示例代码中一样?

索引后最终可能会删除所有HTML文档吗?谢谢大家.

jav*_*nna 5

我将查看批量API,该API可让您在单个请求中发送多个文档,以加快索引编制过程。您可以发送10、20或更多的文档,具体取决于文档的大小。

根据您要索引的内容,您可能需要解析html,除非您希望将整个html索引为单个字段(在这种情况下,您可能希望使用html strip char过滤器从索引中删除html标签。文本)。

索引后,我建议您确保映射正确无误,并且可以找到所需的内容。您始终可以使用Elasticsearch存储在幕后的_source特殊字段重新索引,但是如果您已经编写了索引器代码,则可能需要在需要时再次使用它来重新索引(当然,使用相同的html文档)。在实践中,您永远不会对数据进行一次索引...所以要小心:)即使elasticsearch总是可以帮助您使用_source字段),这只是查询现有索引并将其所有文档重新索引到另一个索引上的问题。