小编Mat*_*t07的帖子

Nutch:在一定深度内抓取每个网址

我的问题是从某个种子列表开始抓取每个页面和每个文档.

我已经安装了nutch并使用以下命令运行它:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)

我希望nutch进程能够抓取类似于100 url的内容,但它说它只找到了11个文档.所以我试着用这个命令运行nutch:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4
Run Code Online (Sandbox Code Playgroud)

它找到了23个文件.

我正在从测试种子http://nutch.apache.org开始运行该过程

为什么nutch有这种行为?如何设置nutch从我的种子开始在一定深度抓取每个URL?

nutch

2
推荐指数
1
解决办法
3494
查看次数

标签 统计

nutch ×1