EMR集群中的"LOST"节点

Mar*_*ace 8 hadoop mapreduce emr hadoop2

如何在长时间运行的EMR群集中对故障节点进行故障排除和恢复?

该节点几天前就停止了报告.主机看起来很好,也是HDFS.我只是从Hadoop Applications UI中注意到了这个问题.

ann*_*ist 1

EMR 节点是短暂的,一旦标记为“丢失”,您将无法恢复它们。您可以通过在集群启动期间启用“终止保护”功能来首先避免这种情况。

关于查找丢失节点的原因,您可以检查集群的 YARN ResourceManager 日志和/或实例控制器日志,以了解有关根本原因的更多信息。