Hadoop namenode:单点故障

rak*_*shr 25 hadoop mapreduce hdfs hadoop-yarn hadoop2

Hadoop架构中的Namenode是单点故障.

拥有大型Hadoop集群的人如何应对这个问题?

是否有一个行业认可的解决方案运行良好,其中一个辅助Namenode接管以防主要的一个失败?

Bkk*_*rad 24

雅虎对不同群集大小的配置设置提出一些建议,以便将NameNode故障考虑在内.例如:

Hadoop集群中的单点故障是NameNode.虽然丢失任何其他计算机(间歇性或永久性)不会导致数据丢失,但NameNode丢失会导致群集不可用.NameNode数据的永久丢失将导致群集的HDFS无法运行.

因此,在此配置中应采取另一个步骤来备份NameNode元数据

Facebook 在其数据仓库中使用了经过调整的Hadoop版本 ; 它有一些专注于NameNode可靠性的优化.除了github上提供的补丁之外,Facebook似乎专门使用AvatarNode在主要和次要NameNode之间快速切换. Dhruba Borthakur的博客包含其他几个条目,提供对NameNode作为单点故障的进一步见解.

编辑:有关Facebook对NameNode的改进的更多信息.


Rav*_*abu 6

Hadoop 2.x版本引入了Namenode的高可用性.

它可以通过两种模式实现 - 使用NFS使用QJM

Quorum Journal Manager(QJM)的高可用性是首选方案.

在典型的HA群集中,两台独立的计算机配置为NameNode.在任何时间点,其中一个NameNode处于活动状态,另一个处于待机状态.该活动的NameNode负责集群中的所有客户端操作,而待机时仅仅作为一个奴隶,保持足够的状态在必要时提供快速故障转移.

看看下面的SE问题,它解释了完整的故障转移过程.

Hadoop 2.x中的Secondary NameNode用法和高可用性

Hadoop Namenode故障转移过程如何工作?