如何在EC2上启动Spark 2.0

下载官方ec2目录,详见Spark 2.0.0文档.
如果您只是将dir复制到Spark 2.0.0并运行spark-ec2可执行文件来模仿Spark 1.*中的工作方式,您将能够像往常一样启动集群.但是当你进入它时,你会发现没有任何二进制文件了.
因此,一旦您启动集群(就像通常spark-ec2在步骤1中下载的那样),您将必须将rsync包含Spark 2.0.0的本地目录放入新创建的集群的主服务器中.完成后,您可以spark-submit像平常一样工作.

真的很简单,但在我看来,Spark文档可以为我们所有人的规范明确这一点.

编辑:这实际上是正确的做法.对于任何有相同问题的人:从Spark建议的AMPLab下载ec2目录,将此文件夹放在本地Spark-2.0.0目录中,并像往常一样启动脚本.显然,他们只是为了维护目的而将目录分离,但逻辑仍然是相同的.很高兴在Spark文档中有一些关于它的话.

我尝试了以下操作:将spark-ec2-branch-1.6目录从AMPLab链接克隆到我的spark-2.0.0目录中,并尝试使用通常的./ec2/spark-ec2命令启动集群.也许这就是他们想要我们做的事情？

我正在推出一个小型的16节点集群.我可以在AWS仪表板中看到它,但终端已经卡住打印过去常见的SSH错误...差不多两个小时.

Warning: SSH connection error. (This could be temporary.) Host: ec2-54-165-25-18.compute-1.amazonaws.com SSH return code: 255 SSH output: ssh: connect to host ec2-54-165-25-18.compute-1.amazonaws.com port 22: Connection refused

如果我发现有用的话会更新.

Answer 2

VBJ*_*VBJ 5

Amplab Spark-ec2不再根据他们的 github repo 页面进行维护。您可以在AWS EC2上使用flintrock创建Spark集群。

归档时间：	9 年，1 月前
查看次数：	7204 次
最近记录：	7 年，6 月前