我有一个名称节点,在紧急情况下必须关闭,该节点已经 9 个月没有获取 FSImage,并且有大约 5TB 的编辑文件需要在下次重新启动时处理。从大约 9 个月前开始,辅助名称节点就没有运行过(或执行过任何检查点操作),因此 FSImage 已经存在 9 个月了。
HDFS集群中大约有780万个inode。该机总内存约为260GB。
我们已经尝试了 Java 堆大小、GC 算法等的几种不同组合...但无法找到一种组合,可以让重新启动完成,而不会最终因 FGC 而减慢速度。
我有两个问题: 1. 有没有人找到一个名称节点配置,允许成功完成如此大的编辑文件积压?