Hadoop架构中的Namenode是单点故障.
拥有大型Hadoop集群的人如何应对这个问题?
是否有一个行业认可的解决方案运行良好,其中一个辅助Namenode接管以防主要的一个失败?
Hadoop权威指南说 -
每个Namenode都运行一个轻量级故障转移控制器进程,其工作是监视其Namenode的故障(使用简单的心跳机制),并在namenode失败时触发故障转移.
为什么namenode可以运行某些东西来检测自己的失败?
谁向谁发送心跳?
这个过程在哪里运行?
它如何检测namenode失败?
它向谁通知过渡?