小编Mat*_*ler的帖子

Hadoop HDFS 备份和灾难恢复策略

我们正准备实施我们的第一个 Hadoop 集群。因此,我们从四节点设置开始。(1 个主节点和 3 个工作节点)每个节点将有 6TB 的存储空间。(6 x 1TB 磁盘)我们采用了 SuperMicro 4 节点机箱,以便所有四个节点共享一个 4U 机箱。

我们现在正在研究如何备份此解决方案以进行灾难恢复。(考虑机架或站点丢失,而不是驱动器丢失)最好的解决方案似乎是集群到集群的复制。虽然我也读过有关人们将数据复制到 NAS 或 SMB 共享的信息。此外,我们将通过传统备份方式备份主节点。我只关心 HDFS 数据。以下是我的问题:

1)对于集群到集群的复制,我可以设置一个具有大量存储空间的单节点集群作为我的异地副本吗?我不关心它的性能,只关心它的存在和保存整个数据集的能力。(恢复时间不是问题,因为该集群不是关键任务)是否可以安排副本使其每天只运行一次,等等?

2)对于 SMB 或 NAS 选项,这是如何工作的?目标盘需要格式化HDFS吗?我是否需要完整备份三个工作节点中的每一个?或者是否有一些智能脚本可以在没有奇偶校验的情况下备份数据集?我对这个解决方案不是很熟悉,只在网上看到过对它的引用。我在查找资源或信息方面运气不佳。

我也对 Hadoop HDFS 的任何其他 DR 选项持开放态度。我们的目标是获得 HDFS 数据集的完整副本,以便我们可以使用它从机架或站点丢失中恢复。

谢谢!

backup disaster-recovery hadoop hdfs

7
推荐指数
1
解决办法
5974
查看次数

标签 统计

backup ×1

disaster-recovery ×1

hadoop ×1

hdfs ×1