Nutch API建议

Question

Nutch API建议

我正在开发一个项目,我需要一个成熟的爬虫来完成一些工作,而我正在为此目的评估Nutch.我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫,我需要它能够只重新抓取站点的更新资源并跳过已经爬行的部分.有没有人有任何直接在Java中使用Nutch代码的经验,而不是通过命令行.我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没什么特别的.是否有一些例子,或者我应该看一些资源？我正在阅读Nutch文档,但大部分都是关于命令行,搜索和其他内容.Nutch爬行模块如何可用而无需索引和搜索？任何帮助表示赞赏.谢谢.

Answer 1

mil*_*bii 1

Nutch 很可能与您曾经练习过的非常不同。因为它类似于一个框架，所以它不仅具有用于查询和搜索的前端，尽管 solr 似乎比本机 Nutch 搜索前端更强大。它还具有爬行部分和索引（进入 Lucene 索引）。

如果您想将爬网用于搜索以外的其他目的，您将需要开发自己的程序并熟悉 Hadoop 和 MapReduce 编程。

不确定你想用爬行做什么，但看起来 Nutch 不是解决方案

归档时间：	14 年，11 月前
查看次数：	2104 次
最近记录：	6 年，7 月前