spark worker 不是失败的恢复力

Maj*_*aba 5 apache-spark

我将检查 spark 中的故障恢复能力。有一些解决方案可以容忍 executor、driver 和 master 中的错误。对于 executor,worker 重新启动它。对于驱动程序,我们可以使用主管模式。对于 master,我们可以使用备用 master。

但是如果一个工作进程宕机了,谁必须重新启动它?似乎像其他主从系统一样,主必须这样做,但不是!

正如我们在http://techblog.netflix.com/2015/03/can-spark-streaming-survive-chaos-monkey.html中看到的那样,据说“工作进程会自动重新启动”,但在我的系统中如果工作进程死亡,它将永远不会重新启动。

重新启动工人的解决方案是什么?