spark worker 不是失败的恢复力

Maj*_*aba 5 apache-spark

我将检查 spark 中的故障恢复能力。有一些解决方案可以容忍 executor、driver 和 master 中的错误。对于 executor，worker 重新启动它。对于驱动程序，我们可以使用主管模式。对于 master，我们可以使用备用 master。

但是如果一个工作进程宕机了，谁必须重新启动它？似乎像其他主从系统一样，主必须这样做，但不是！

正如我们在http://techblog.netflix.com/2015/03/can-spark-streaming-survive-chaos-monkey.html中看到的那样，据说“工作进程会自动重新启动”，但在我的系统中如果工作进程死亡，它将永远不会重新启动。

重新启动工人的解决方案是什么？

归档时间：	10 年，6 月前
查看次数：	368 次
最近记录：	8 年，8 月前

使用pyspark,在hadoop文件系统上读/写2D图像 7

从 Python 在 kubernetes 集群上提交 Spark (2.3) 5

kubernetes与yarn/hadoop生态系统的火花 5

为什么BigDecimal的Spark groupBy.agg(min/max)总是返回0？ 5

如何以编程方式获取有关 PySpark 中执行程序的信息 5

使用没有Spark依赖关系的MLlib 2+ 4

Hive 错误：线程“main”java.lang.NoClassDefFoundError 中出现异常：scala/collection/Iterable 4

如何在PySpark中广播RDD？ 4

Spark sql中什么时候可以使用符号来表示列？ 4

AttributeError：pyspark中的“DataFrame”对象没有属性“dtype”错误 2

如何在Linux上找到包含特定文本的所有文件？ 4914

Git获取远程分支 2088

在Vim中复制整行 1555

在Git中撤消一个文件的工作副本修改？ 1550

在C++中将int转换为字符串的最简单方法 1488

你什么时候使用git rebase而不是git merge？ 1461

每个'循环的Java'如何工作？ 1446

如何按多列对数据帧进行排序？ 1266

更改列:null为非null 1177

获取插入行的标识的最佳方法是什么？ 1056