Hadoop备份和恢复工具和指南

Question

我不熟悉hadoop需要了解有关备份和恢复的详细信息.我修改了oracle备份和恢复它会帮助hadoop吗？我应该从哪里开始

Answer 1

备份和恢复有几个选项.正如s.singh指出的那样,数据复制不是DR.

HDFS支持快照.这可用于防止用户错误,恢复文件等.话虽如此,如果Hadoop集群完全失败,这不是DR.(http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)

您最好的选择是保持异地备份.这可以是另一个Hadoop集群,S3等,可以使用distcp执行.(http://hadoop.apache.org/docs/stable1/distcp2.html),(https://wiki.apache.org/hadoop/AmazonS3)

Answer 2

Hadoop 设计用于在具有 1000 个节点的大型集群上工作。数据丢失可能会更少。您可以增加复制因子以将数据复制到集群中的许多节点。

对于Namenode日志备份，可以使用辅助namenode或Hadoop High Availability

辅助名称节点

辅助名称节点将为 namnode 日志进行备份。如果 namenode 发生故障，那么您可以从辅助 namenode 恢复 namenode 日志（保存数据块信息）。

高可用性

高可用性是一项新功能，可在集群中运行多个名称节点。一个名称节点将处于活动状态，另一个名称节点将处于备用状态。日志保存在两个namenode中。如果一个名称节点发生故障，则另一个名称节点将变为活动状态并处理该操作。

但大多数情况下我们还需要考虑备份和灾难恢复。请参阅@brandon.bell 的回答。

总是需要备份。至少，您需要能够防止数据逻辑丢失。第一天，鲍勃被告知“清除我们不需要的东西”，第五天有人问鲍勃所有有用的数据去了哪里。如果复制删除，那么复制是不够的。 (2认同)