rak*_*shr 25 hadoop mapreduce hdfs hadoop-yarn hadoop2
Hadoop架构中的Namenode是单点故障.
拥有大型Hadoop集群的人如何应对这个问题?
是否有一个行业认可的解决方案运行良好,其中一个辅助Namenode接管以防主要的一个失败?
Bkk*_*rad 24
雅虎对不同群集大小的配置设置提出了一些建议,以便将NameNode故障考虑在内.例如:
Hadoop集群中的单点故障是NameNode.虽然丢失任何其他计算机(间歇性或永久性)不会导致数据丢失,但NameNode丢失会导致群集不可用.NameNode数据的永久丢失将导致群集的HDFS无法运行.
因此,在此配置中应采取另一个步骤来备份NameNode元数据
Facebook 在其数据仓库中使用了经过调整的Hadoop版本 ; 它有一些专注于NameNode可靠性的优化.除了github上提供的补丁之外,Facebook似乎还专门使用AvatarNode在主要和次要NameNode之间快速切换. Dhruba Borthakur的博客包含其他几个条目,提供对NameNode作为单点故障的进一步见解.
编辑:有关Facebook对NameNode的改进的更多信息.
Hadoop 2.x版本引入了Namenode的高可用性.
但Quorum Journal Manager(QJM)的高可用性是首选方案.
在典型的HA群集中,两台独立的计算机配置为NameNode.在任何时间点,其中一个NameNode处于活动状态,另一个处于待机状态.该活动的NameNode负责集群中的所有客户端操作,而待机时仅仅作为一个奴隶,保持足够的状态在必要时提供快速故障转移.
看看下面的SE问题,它解释了完整的故障转移过程.
Hadoop 2.x中的Secondary NameNode用法和高可用性