我的问题是从某个种子列表开始抓取每个页面和每个文档.
我已经安装了nutch并使用以下命令运行它:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Run Code Online (Sandbox Code Playgroud)
我希望nutch进程能够抓取类似于100 url的内容,但它说它只找到了11个文档.所以我试着用这个命令运行nutch:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4
Run Code Online (Sandbox Code Playgroud)
它找到了23个文件.
我正在从测试种子http://nutch.apache.org开始运行该过程
为什么nutch有这种行为?如何设置nutch从我的种子开始在一定深度抓取每个URL?
topN设置每个深度中要获取的url数.在您的第一个示例中,深度为3. Depth1是种子URL.并且在深度2和深度3中,将获取5(topN值)url.5*2(depth2和depth3)+ 1(种子网址,即depth1)= 11.要获取更多网址,您可以增加topN.如果您不想限制,则可以跳过topN参数.
| 归档时间: |
|
| 查看次数: |
3494 次 |
| 最近记录: |