CRS*_*CRS 10 lucene solr nutch
我最近开始研究nutch,我正在努力了解它是如何工作的.据我所知,Nutch基本上用于抓取网络,solr/Lucene用于索引和搜索.但是当我阅读关于nutch的文档时,它说nutch也做了反向索引.它是否在内部使用Lucene进行索引,还是有其他一些用于索引的库?如果它使用solr/lucene进行索引,那么为什么有必要用nutch配置solr,正如nutch教程所说的那样?
索引是否默认完成.我的意思是我运行此命令来开始爬行.索引正在这里发生吗?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)
或者仅在这种情况下发生索引.(根据教程:如果您已经设置了Solr核心并希望为其编制索引,则需要将-solr参数添加到爬网命令中,例如)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)
看看这里可能会有用.当您运行第一个命令时:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)
你正在爬行,这意味着nutch将创建自己的内部数据,包括:
您可以在以下目录中看到它们,这些目录是在您运行crawl命令时创建的:
您可以将该数据视为某种数据库,其中nutch存储已爬网的数据.这与倒排索引没有任何关系.
在爬网过程之后,您可以在Solr实例上索引数据.您可以抓取然后索引运行单个命令,这是您问题中的第二个命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)
否则,您可以在crawl命令之后运行第二个命令,特定于索引到Solr,但您必须提供crawldb,linkdb和段的路径:
bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4177 次 |
最近记录: |