Mat*_*zyk 3 amazon-web-services elastic-map-reduce hadoop-yarn apache-spark
我可以在AWS EMR上运行Spark,而不会出现文档,但从我看到它总是使用YARN而不是独立管理器.有没有办法轻松使用独立模式而不是YARN?我真的不想破解引导脚本来关闭纱线并自己部署火花主人/工人.
我遇到了一个奇怪的YARN相关错误,我希望它不会发生在独立经理身上.
据我所知,除非你回到旧的ami版本而不是使用emr-release-label,否则无法在EMR上以独立模式运行.然而,旧的ami版本会导致更新版本的Spark出现其他问题,所以我不会这样做.
你可以做的是用Spark启动普通的EC2实例,而不是使用EMR.如果您有本地Spark安装,请转到该ec2文件夹并使用spark-ec2以启动集群,如下所示:
./spark-ec2 --copy-aws-credentials --key-pair=MY_KEY --identity-file=MY_PEM_FILE.pem --region=MY_PREFERED_REGION --instance-type=INSTANCE_TYPE --slaves=NUMBER_OF_SLAVES --hadoop-major-version=2 --ganglia launch NAME_OF_JOB
Run Code Online (Sandbox Code Playgroud)
我怀疑你有需要的jar文件,因此必须将它们复制到集群上(首先复制到master,然后将ssh复制到master并从那里复制到slave../spark-ec2/copy-dir在master上将目录复制到所有slave上).然后重启Spark:
./spark/sbin/stop-master.sh
./spark/sbin/stop-slaves.sh
./spark/sbin/start-master.sh
./spark/sbin/start-slaves.sh
Run Code Online (Sandbox Code Playgroud)
并且您已准备好以独立模式启动Spark:
./spark/bin/spark-submit --deploy-mode client ...
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1617 次 |
| 最近记录: |