为什么不将hadoop分发给所有节点？

Question

我根据http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/中的演练设置了一个4节点的hadoop集群.我使用了1的复制(该集群仅用于测试)

我从本地复制了一个2GB的文件.在http接口中浏览文件时,我看到它被拆分为31个块,但所有这些都在一个节点上(主节点)

它是否正确？我该如何调查原因？

Answer 1

它们都在一个节点上,因为默认情况下Hadoop默认会首先写入本地节点.我猜你正在使用该节点的Hadoop客户端.由于您有一个复制,它只会在该节点上.

由于你只是玩游戏,你可能想强制传播数据.要做到这一点,你可以运行重新平衡带hadoop rebalancer.只需几分钟就可以控制它.