sno*_*ndy 6 emr hadoop-yarn apache-spark apache-zeppelin
我有带有Spark 1.4.1的Amazon EMR Hadoop v2.6集群,以及Yarn资源管理器.我想在单独的机器上部署Zeppelin,以便在没有作业运行时关闭EMR集群.
我尝试按照这里的说明https://zeppelin.incubator.apache.org/docs/install/yarn_install.html但 没有取得多大成功.
有人可以揭开Zeppelin如何从不同机器连接到现有Yarn集群的神秘面纱吗?
sno*_*ndy 13
[1]使用适当的参数安装Zeppelin:
git clone https://github.com/apache/incubator-zeppelin.git ~/zeppelin;
cd ~/zeppelin;
mvn clean package -Pspark-1.4 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests
Run Code Online (Sandbox Code Playgroud)
[2]更新EMR_MASTER EC2安全组以接受来自所有端口的传入请求,与Zeppelin通信(应该是特定端口,还不知道哪个)
[3]将目录EMR_MASTER:/ etc/hadoop/conf复制到MY_STANDALONE_SERVER:/ home/zeppelin/hadoop-conf.
[4] zeppelin/conf/zeppelin-env.sh应包含:
export MASTER=yarn-client
export HADOOP_CONF_DIR=/home/zeppelin/hadoop-conf
Run Code Online (Sandbox Code Playgroud)
注意:spark.executor.instances在那里指定了从解释器设置中获取的Spark参数.
| 归档时间: |
|
| 查看次数: |
4555 次 |
| 最近记录: |