Spark Mesos Dispatcher

bes*_*sil 1 mesos apache-spark

我的团队正在Amazon Cloud上部署新的大数据架构.我们有Mesos并运行Spark作业.

我们从同一集群内的堡垒主机提交Spark作业(即:jars).但是,这样做,堡垒主机是驱动程序,这称为客户端模式(如果我理解正确).

我们想尝试群集模式,但我们不知道从哪里开始调度程序进程.

文档说要在集群中启动它,但我很困惑,因为我们的主人没有安装Spark,我们使用Zookeeper进行主选.在从属节点上启动它不是一个可用的选项,因为slave可能会失败,我们不希望将slave ip或公共DNS暴露给堡垒主机.

在堡垒主机上启动调度程序是否正确?

非常感谢你

bes*_*sil 5

文档不是很详细.但是,我们对我们发现的内容非常满意:根据文档,Mesos集群(以及Python应用程序)不支持集群模式.

但是,我们启动了调度员使用 --master mesos://zk://...

要提交申请,您需要以下内容:

spark-submit --deploy-mode cluster <other options> --master mesos://<dispatcher_ip>:7077 <ClassName> <jar>
Run Code Online (Sandbox Code Playgroud)

如果从堡垒机运行此命令,它将无法工作,因为Mesos主机将在与堡垒相同的路径中查找可提交的jar.我们最终将该文件公开为可下载的URL.

希望这可以帮助