Joã*_*elo 5 hadoop mapreduce hdfs
有很多内容解释数据局部性以及如何MapReduce在HDFS多节点集群上工作。但我找不到有关单节点设置的太多信息。在过去的三个月里,我Hadoop一直在阅读有关映射器和减速器数量的教程和线程,并编写自定义分区器来优化作业,但我总是想,它是否适用于单节点集群?
MapReduce与多节点集群相比,单节点集群上运行作业的损失是多少?
在这种情况下,通过分割输入数据提供的并行性是否仍然适用?
HDFS从单个节点读取输入和从本地文件系统读取有什么区别?
我认为由于我的经验很少,我无法清楚地回答这些问题,因此感谢您的帮助!
提前致谢!
编辑:我知道 Hadoop 不适合单节点设置,因为 @TC1 列出了所有因素。那么,搭建伪分布式Hadoop环境有什么好处呢?
我总是阅读有关映射器和减速器数量的教程和线程,并编写自定义分区器来优化作业,但我总是想,它是否适用于单节点集群?
与多节点集群相比,在单节点集群上运行 MapReduce 作业的损失是多少?
在这种情况下,通过分割输入数据提供的并行性是否仍然适用?
从单节点HDFS读取输入和从本地文件系统读取有什么区别?
几乎不存在。HDFS的想法是
当在单个节点上运行时,这两者都是没有意义的。
编辑:
“单节点”和“伪分布式”之间的区别在于,在单模式下,所有 Hadoop 进程都在单个 JVM 上运行。不涉及网络通信,甚至不通过localhost等方式进行通信。即使只是在小数据上测试作业,我也建议使用伪分布式,因为这本质上与集群相同。
| 归档时间: |
|
| 查看次数: |
2569 次 |
| 最近记录: |