群集使用Spark 1.2.0 EC2启动脚本挂起'ssh-ready'状态

nmu*_*thy 5 amazon-ec2 amazon-web-services apache-spark apache-spark-1.2

我正在尝试使用预先打包的EC2脚本启动一个独立的Spark集群,但它只是无限期地挂起'ssh-ready'状态:

ubuntu@machine:~/spark-1.2.0-bin-hadoop2.4$ ./ec2/spark-ec2 -k <key-pair> -i <identity-file>.pem -r us-west-2 -s 3 launch test
Setting up security groups...
Searching for existing cluster test...
Spark AMI: ami-ae6e0d9e
Launching instances...
Launched 3 slaves in us-west-2c, regid = r-b_______6
Launched master in us-west-2c, regid = r-0______0
Waiting for all instances in cluster to enter 'ssh-ready' state..........
Run Code Online (Sandbox Code Playgroud)

然而,我可以在没有投诉的情

ubuntu@machine:~$ ssh -i <identity-file>.pem root@master-ip
Last login: Day MMM DD HH:mm:ss 20YY from c-AA-BBB-CCCC-DDD.eee1.ff.provider.net

       __|  __|_  )
       _|  (     /   Amazon Linux AMI
      ___|\___|___|

https://aws.amazon.com/amazon-linux-ami/2013.03-release-notes/
There are 59 security update(s) out of 257 total update(s) available
Run "sudo yum update" to apply all updates.
Amazon Linux version 2014.09 is available.
root@ip-internal ~]$
Run Code Online (Sandbox Code Playgroud)

我试图弄清楚这是AWS中的问题还是使用Spark脚本.直到最近我才从未遇到过这个问题.

Gre*_*cki 4

火花1.3.0+

此问题在 Spark 1.3.0 中已修复


火花1.2.0

您的问题是由于SSHknown_hosts文件中的条目冲突而导致 SSH 无提示停止造成的。

要解决您的问题,请像这样-o UserKnownHostsFile=/dev/null添加到您的spark_ec2.py脚本中。


(可选)为了清理并避免稍后使用 SSH 连接到集群时遇到问题,我建议您:

  1. 删除包含 EC2 主机的所有行~/.ssh/known_hosts,例如:

ec2-54-154-27-180.eu-west-1.compute.amazonaws.com,54.154.27.180 ssh-rsa (...)

  1. 使用此解决方案完全停止检查和存储 EC2 实例的临时 IP 指纹