Ale*_*rte 6 scala remote-access apache-spark
我希望连接到远程集群并执行 Spark 进程。因此,根据我的阅读,这是在 SparkConf 中指定的。
val conf = new SparkConf()
.setAppName("MyAppName")
.setMaster("spark://my_ip:7077")
Run Code Online (Sandbox Code Playgroud)
其中 my_ip 是我的集群的 IP 地址。不幸的是,我的连接被拒绝了。所以,我猜必须添加一些凭据才能正确连接。我将如何指定凭据?似乎可以用 .set(key, value) 来完成,但没有这方面的线索。
缺少两件事:
yarn(setMaster("yarn")) ,部署模式应设置为cluster,您当前的设置用于 Spark 独立版。更多信息在这里:
http://spark.apache.org/docs/latest/configuration.html#application-propertiesyarn-site.xml,以便 Spark 可以获取纱线设置,例如主节点的 IP。更多信息:https://theckang.github.io/2015/12/31/remote-spark-jobs-on-yarn.htmlcore-site.xmlHADOOP_CONF_DIR顺便说一句,如果您使用spark-submit提交作业,这将起作用,以编程方式实现它会更复杂,并且只能使用yarn-client远程设置很棘手的模式。