有关Nutch,Hadoop,Solr,MapReduce和Mahout的信息

Pyt*_*ast 0 solr hadoop mapreduce nutch mahout

PS:如果我在任何方面都错了,请纠正我

我正在用Nutch和Solr建立一个搜索引擎.
我知道通过使用Solr,我可以提高搜索的效率 - 让Nutch独自完成整个网络的爬行.
我也知道Hadoop用于通过形成集群和MapReduce来处理数PB的数据.

现在,我想知道的是
1)因为,我将只在一台机器上运行这些开源软件,也就是说,我的笔记本电脑在localhost上运行......在我的情况下,Hadoop如何形成集群是多么有益?如何在一台机器上形成集群?

2)在我的案例中,MapReduce的重要性是什么?

3)MAHOUT,CASSANDRA和HBASE如何影响我的发动机???

非常感谢这方面的任何帮助.如果我问一个菜鸟问题,请告诉我!
谢谢你
的问候

pyf*_*unc 5

1)因为,我将只在一台机器上运行这些开源软件,也就是说,我的笔记本电脑在localhost上运行......在我的情况下,Hadoop如何形成集群?

创建Hadoop是为了处理大规模数据.Hadoop是一个分布式应用程序.它不会在一台机器上为您提供好处.

如何在一台机器上形成集群?

以伪群集模式安装Hadoop

在我的案例中,MapReduce的重要性是什么?

同样,如果您希望以1000千兆字节的比例处理由爬虫获取的页面.Map-Reduce在处理如此大的数据时非常有用

MAHOUT,CASSANDRA和HBASE将如何影响我的引擎???

它们是满足不同需求的不同工具.

Mahout是适用于在Hadoop或本地文件上作为map-reduce任务运行的机器学习算法.您想学习谷歌翻译等语言,您可以使用它.

HBase是一个无sql数据库,它通过ad hoc分析提供更多实时数据处理,map-reduce更有用.

我建议您回到问题陈述,使用所需的工具进行设计,当您点击笔记时,您将了解其中一些工具是否有用.