AWS EMR上的Spark独立模式

Question

AWS EMR上的Spark独立模式

Mat*_*zyk 3 amazon-web-services elastic-map-reduce hadoop-yarn apache-spark

我可以在AWS EMR上运行Spark,而不会出现文档,但从我看到它总是使用YARN而不是独立管理器.有没有办法轻松使用独立模式而不是YARN？我真的不想破解引导脚本来关闭纱线并自己部署火花主人/工人.

我遇到了一个奇怪的YARN相关错误,我希望它不会发生在独立经理身上.

Answer 1

Gle*_*olt 5

据我所知,除非你回到旧的ami版本而不是使用emr-release-label,否则无法在EMR上以独立模式运行.然而,旧的ami版本会导致更新版本的Spark出现其他问题,所以我不会这样做.

你可以做的是用Spark启动普通的EC2实例,而不是使用EMR.如果您有本地Spark安装,请转到该ec2文件夹并使用spark-ec2以启动集群,如下所示:

./spark-ec2 --copy-aws-credentials --key-pair=MY_KEY --identity-file=MY_PEM_FILE.pem --region=MY_PREFERED_REGION --instance-type=INSTANCE_TYPE --slaves=NUMBER_OF_SLAVES --hadoop-major-version=2 --ganglia launch NAME_OF_JOB

Run Code Online (Sandbox Code Playgroud)

我怀疑你有需要的jar文件,因此必须将它们复制到集群上(首先复制到master,然后将ssh复制到master并从那里复制到slave../spark-ec2/copy-dir在master上将目录复制到所有slave上).然后重启Spark:

./spark/sbin/stop-master.sh
./spark/sbin/stop-slaves.sh
./spark/sbin/start-master.sh
./spark/sbin/start-slaves.sh

Run Code Online (Sandbox Code Playgroud)

并且您已准备好以独立模式启动Spark:

./spark/bin/spark-submit --deploy-mode client ...

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	1617 次
最近记录：	10 年前