备份和恢复有几个选项.正如s.singh指出的那样,数据复制不是DR.
HDFS支持快照.这可用于防止用户错误,恢复文件等.话虽如此,如果Hadoop集群完全失败,这不是DR.(http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)
您最好的选择是保持异地备份.这可以是另一个Hadoop集群,S3等,可以使用distcp执行.(http://hadoop.apache.org/docs/stable1/distcp2.html),(https://wiki.apache.org/hadoop/AmazonS3)
这是由Cloudera讨论DR的Slideshare(http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery)
Hadoop 设计用于在具有 1000 个节点的大型集群上工作。数据丢失可能会更少。您可以增加复制因子以将数据复制到集群中的许多节点。
请参阅数据复制
对于Namenode日志备份,可以使用辅助namenode或Hadoop High Availability
辅助名称节点
辅助名称节点将为 namnode 日志进行备份。如果 namenode 发生故障,那么您可以从辅助 namenode 恢复 namenode 日志(保存数据块信息)。
高可用性
高可用性是一项新功能,可在集群中运行多个名称节点。一个名称节点将处于活动状态,另一个名称节点将处于备用状态。日志保存在两个namenode中。如果一个名称节点发生故障,则另一个名称节点将变为活动状态并处理该操作。
但大多数情况下我们还需要考虑备份和灾难恢复。请参阅@brandon.bell 的回答。
| 归档时间: |
|
| 查看次数: |
3739 次 |
| 最近记录: |