如何将PySpark(本地机器)连接到我的EMR集群?

Sou*_*hik 10 amazon-ec2 emr apache-spark pyspark

我已经部署了一个由Apache Spark引导的3节点AWS ElasticMapReduce集群.从我的本地机器,我可以通过SSH 访问主节点:

ssh -i <key> hadoop@ec2-xx-xxx-xxx-xxx.compute-1.amazonaws.com ssh进入主节点后,我可以通过访问PySparkpyspark.此外,(虽然不安全)我已经配置了我的主节点的安全组,以接受来自本地计算机的IP地址的TCP流量,特别是在端口上7077.

但是,我仍然无法将本地 PySpark实例连接到我的集群:

MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark

上面的命令会导致许多异常,并导致PySpark无法初始化SparkContext对象.

有谁知道如何成功创建一个远程连接,就像我上面描述的那样?

eli*_*sah -1

除非您的本地计算机是集群的主节点,否则您不能这样做。您将无法使用 AWS EMR 来做到这一点。

  • 你能解释一下为什么吗?我也想这样做,但如果这种方法行不通,我需要能够解释为什么我不能这样做。 (3认同)