小编Kas*_*hei的帖子

我有一个名称节点，在紧急情况下必须关闭，该节点已经 9 个月没有获取 FSImage，并且有大约 5TB 的编辑文件需要在下次重新启动时处理。从大约 9 个月前开始，辅助名称节点就没有运行过（或执行过任何检查点操作），因此 FSImage 已经存在 9 个月了。

HDFS集群中大约有780万个inode。该机总内存约为260GB。

我们已经尝试了 Java 堆大小、GC 算法等的几种不同组合...但无法找到一种组合，可以让重新启动完成，而不会最终因 FGC 而减慢速度。

我有两个问题： 1. 有没有人找到一个名称节点配置，允许成功完成如此大的编辑文件积压？

我考虑过的另一种方法是重新启动名称节点，仅保留编辑文件的可管理子集。一旦名称节点启动并创建一个新的 FSImage，将其关闭，复制下一个编辑文件子集，然后重新启动它。重复此操作，直到处理完整组编辑文件。这种方法行得通吗？就系统和文件系统的整体稳定性而言，这样做安全吗？

5
推荐指数

1
解决办法

1743
查看次数

小编Kas_hei的帖子