在 Kubernetes 上启动 Spark 应用程序时会发生什么

kz2*_*z28 5 hadoop hadoop-yarn apache-spark kubernetes

我读到了这篇文章：在 Kubernetes 上运行 Spark。我想了解有关在 K8s 上启动 Spark 作业时 Kubernetes 控制器/调度程序和 Spark 运行时之间交互的更多详细信息。特别是，假设我们通过以下方式启动 Spark 应用程序：

bin/spark-submit \
--master k8s://https://<k8s-apiserver-host>:<k8s-apiserver-port> \
--deploy-mode cluster \
--name spark-pi \
--class org.apache.spark.examples.SparkPi \
--conf spark.executor.instances=5 \
--..............

Run Code Online (Sandbox Code Playgroud)

我的问题是：由于 Spark 应用程序启动时集群资源不可用，K8s 可能无法立即分配 5 个执行器（或称为容器/pod）。Spark应用程序采取什么方式？（1）当至少有一个执行器被分配时，Spark会尽快开始运行任务。(2) 在所有 5 个执行器都被分配之前，Spark 不会启动任何任务。

如果您了解 Hadoop YARN，如果您也能回答在 Hadoop YARN 上运行 Spark 应用程序（禁用动态分配）的场景中的问题并指出差异，那就太好了。

归档时间：	7 年，1 月前
查看次数：	514 次
最近记录：	7 年，1 月前