是否可以从没有安装 Spark 的主机启动 Spark 应用程序

Question

是否可以从没有安装 Spark 的主机启动 Spark 应用程序

我有一个使用 Spark 独立实例设置的远程主机（现在在同一台机器上一个主站和一个从站）。我也有具有spark-core依赖性的本地 Java 代码和带有实际 Spark 应用程序的打包 jar。我正在尝试使用SparkLauncherJavadoc 中描述的类来启动它。

这里是依赖：

        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>${spark.version}</version>

Run Code Online (Sandbox Code Playgroud)

这是躺椅的代码：

        new SparkLauncher()
            .setVerbose(true)
            .setDeployMode("cluster")
            .setSparkHome("/opt/spark/current").setAppResource(Resources.getResource("validation.jar").getPath())
            .setMainClass("com.blah.SparkTestApplication")
            .setMaster("spark://"  + sparkMasterHostWithPort))
            .startApplication();

Run Code Online (Sandbox Code Playgroud)

我得到的错误要么是，要么path not found /opt/spark/current/，如果我删除setSparkHome电话，Spark home not found; set it explicitly or use the SPARK_HOME environment variable.

这是我的幼稚问题：是否有任何解决方法可以让我不在我只想运行 Launcher 的本地主机上安装 Spark 二进制文件？为什么依赖项中引用的 Spark Java 代码不能/不足以连接到某些已配置的远程 Spark Master 并提交应用程序 jar？即使我将 Spark 二进制文件、应用程序代码甚至 Spark Java jar 放在 hdfs 位置并使用其他部署方法（如 YARN），是否仅使用 Launcher 来触发提交并远程启动就足够了？

原因是我想避免在多个客户端节点上安装 Spark 二进制文件只是为了从那里提交和启动动态创建/修改的 Spark 应用程序，这对我来说听起来像是一种浪费。更不用说每次提交都需要将应用程序打包在 jar 中。

Answer 1

小智 0

简短的回答：您的客户端计算机上必须有 Spark 二进制文件，并且SPARK_HOME环境变量必须指向它。

长答案：但是，如果您想在远程集群上启动作业，那么您可以在 Spark 作业中使用以下配置：

val spark = SparkSession.builder.master("yarn") 
.config("spark.submit.deployMode", "cluster")
.config("spark.driver.host", "remote.spark.driver.host.on.the.cluster") 
.config("spark.driver.port", "35000")
.config("spark.blockManager.port", "36000") 
.getOrCreate()

Run Code Online (Sandbox Code Playgroud)

spark.driver.port并且spark.blockManager.port不是强制性的，但如果您在封闭环境中工作（例如 kubernetes 网络）并且为 Spark 客户端 pod 定义了一些端口网关服务，则需要它。

在主设置中定义远程主机SparkLauncher将不起作用。您需要从集群获取hadoop配置，通常它位于/etc/hadoop/conf集群节点上。将 hadoop config 目录放置在客户端计算机中并将HADOOP_CONF_DIR环境变量指向它。这应该足以开始。

归档时间：	8 年前
查看次数：	781 次
最近记录：	5 年，5 月前