nutch vs solr indexing

Question

nutch vs solr indexing

我最近开始研究nutch,我正在努力了解它是如何工作的.据我所知,Nutch基本上用于抓取网络,solr/Lucene用于索引和搜索.但是当我阅读关于nutch的文档时,它说nutch也做了反向索引.它是否在内部使用Lucene进行索引,还是有其他一些用于索引的库？如果它使用solr/lucene进行索引,那么为什么有必要用nutch配置solr,正如nutch教程所说的那样？

索引是否默认完成.我的意思是我运行此命令来开始爬行.索引正在这里发生吗？

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

或者仅在这种情况下发生索引.(根据教程:如果您已经设置了Solr核心并希望为其编制索引,则需要将-solr参数添加到爬网命令中,例如)

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

Answer 1

jav*_*nna 5

看看这里可能会有用.当您运行第一个命令时:

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

你正在爬行,这意味着nutch将创建自己的内部数据,包括:

抓斗
linkdb
一组段

您可以在以下目录中看到它们,这些目录是在您运行crawl命令时创建的:

爬行/ crawldb
爬行/ linkdb
抓取/区段

您可以将该数据视为某种数据库,其中nutch存储已爬网的数据.这与倒排索引没有任何关系.

在爬网过程之后,您可以在Solr实例上索引数据.您可以抓取然后索引运行单个命令,这是您问题中的第二个命令:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

Run Code Online (Sandbox Code Playgroud)

否则,您可以在crawl命令之后运行第二个命令,特定于索引到Solr,但您必须提供crawldb,linkdb和段的路径:

bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，3 月前
查看次数：	4177 次
最近记录：	12 年，4 月前