小编Kas*_*hei的帖子

如何成功完成名称节点重启并处理价值 5TB 的编辑文件

我有一个名称节点,在紧急情况下必须关闭,该节点已经 9 个月没有获取 FSImage,并且有大约 5TB 的编辑文件需要在下次重新启动时处理。从大约 9 个月前开始,辅助名称节点就没有运行过(或执行过任何检查点操作),因此 FSImage 已经存在 9 个月了。

HDFS集群中大约有780万个inode。该机总内存约为260GB。

我们已经尝试了 Java 堆大小、GC 算法等的几种不同组合...但无法找到一种组合,可以让重新启动完成,而不会最终因 FGC 而减慢速度。

我有两个问题: 1. 有没有人找到一个名称节点配置,允许成功完成如此大的编辑文件积压?

  1. 我考虑过的另一种方法是重新启动名称节点,仅保留编辑文件的可管理子集。一旦名称节点启动并创建一个新的 FSImage,将其关闭,复制下一个编辑文件子集,然后重新启动它。重复此操作,直到处理完整组编辑文件。这种方法行得通吗?就系统和文件系统的整体稳定性而言,这样做安全吗?

hadoop hdfs namenode

5
推荐指数
1
解决办法
1743
查看次数

标签 统计

hadoop ×1

hdfs ×1

namenode ×1