crawler + elasticsearch集成

Question

我无法找到,如何抓取网站和索引数据到elasticsearch.我设法在组合nutch + solr中做到这一点,因为nutch应该能够从版本1.8导出数据直接到elasticsearch (源),我试图再次使用nutch.然而,我没有成功.试图调用之后

$ bin/nutch elasticindex

我明白了:

Error: Could not find or load main class elasticindex

我不坚持使用nutch.我只需要最简单的方法来抓取网站并将它们编入索引到elasticsearch.问题是,我无法找到任何分步教程,我对这些技术还很陌生.

所以问题是 - 将爬虫与弹性搜索集成的最简单的解决方案是什么,如果可能的话,我将不胜感激任何一步一步的解决方案.

Answer 1

它提供了一个很好的How To部分,包括创建所需的索引,调度(基于Quartz),身份验证(支持基本和NTLM),元数据提取,...

由于River插件已被弃用,因此可能需要查看ManifoldCF或Norconex收集器.