相关疑难解决方法(0)

在EMR上运行pyspark脚本

我目前使用Sparks预配置的./ec2目录,使用EC2集群自动化我的Apache Spark Pyspark脚本.出于自动化和调度的目的,我想使用Boto EMR模块将脚本发送到集群.

我能够在EMR集群上引导和安装Spark.我也可以使用我的本地机器版本的pyspark 在EMR上启动脚本,并设置master如下:

$: MASTER=spark://<insert EMR master node of cluster here> ./bin/pyspark <myscriptname.py>
Run Code Online (Sandbox Code Playgroud)

但是,这需要我在本地运行该脚本,因此我无法充分利用Boto的能力1)启动集群2)添加脚本步骤和3)停止集群.我已经找到了使用script-runner.sh和emr"step"命令进行spark-shell(scala)的示例,但我认为使用Python模块(pyspark)有一种更简单的方法.非常感谢提前!

python apache-spark

21
推荐指数
2
解决办法
2万
查看次数

标签 统计

apache-spark ×1

python ×1