Scala Spark 连接到远程集群

Question

我希望连接到远程集群并执行 Spark 进程。因此，根据我的阅读，这是在 SparkConf 中指定的。

 val conf = new SparkConf()
  .setAppName("MyAppName")
  .setMaster("spark://my_ip:7077")

其中 my_ip 是我的集群的 IP 地址。不幸的是，我的连接被拒绝了。所以，我猜必须添加一些凭据才能正确连接。我将如何指定凭据？似乎可以用 .set(key, value) 来完成，但没有这方面的线索。

Answer 1

缺少两件事：

集群管理器应设置为yarn(setMaster("yarn")) ，部署模式应设置为cluster，您当前的设置用于 Spark 独立版。更多信息在这里： http://spark.apache.org/docs/latest/configuration.html#application-properties
另外，您需要从集群中获取文件并将它们放入中yarn-site.xml，以便 Spark 可以获取纱线设置，例如主节点的 IP。更多信息：https://theckang.github.io/2015/12/31/remote-spark-jobs-on-yarn.htmlcore-site.xmlHADOOP_CONF_DIR

顺便说一句，如果您使用spark-submit提交作业，这将起作用，以编程方式实现它会更复杂，并且只能使用yarn-client远程设置很棘手的模式。