crawler + elasticsearch集成

Mar*_*cek 2 search-engine web-crawler nutch elasticsearch

我无法找到,如何抓取网站和索引数据到elasticsearch.我设法在组合nutch + solr中做到这一点,因为nutch应该能够从版本1.8导出数据直接到elasticsearch (),我试图再次使用nutch.然而,我没有成功.试图调用之后

$ bin/nutch elasticindex
Run Code Online (Sandbox Code Playgroud)

我明白了:

Error: Could not find or load main class elasticindex
Run Code Online (Sandbox Code Playgroud)

我不坚持使用nutch.我只需要最简单的方法来抓取网站并将它们编入索引到elasticsearch.问题是,我无法找到任何分步教程,我对这些技术还很陌生.

所以问题是 - 将爬虫与弹性搜索集成的最简单的解决方案是什么,如果可能的话,我将不胜感激任何一步一步的解决方案.

Kon*_*oll 5

你看过River Web插件了吗?https://github.com/codelibs/elasticsearch-river-web

它提供了一个很好的How To部分,包括创建所需的索引,调度(基于Quartz),身份验证(支持基本和NTLM),元数据提取,...

可能值得看一下elasticsearch河流插件概述:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/modules-plugins.html#river

由于River插件已被弃用,因此可能需要查看ManifoldCFNorconex收集器.