在Zeppelin上增加Spark Executors

Pie*_*ito 1 python hadoop hadoop-yarn apache-spark apache-zeppelin

我正在使用Hortnworks(HDP 2.4)建立一个集群.我有一个4节点集群,每个集群都有(16Gb-RAM,8-CPU).我也使用Zeppelin Notebook安装了Spark,以便使用python(pyspark).

我的问题是:我开始使用3个节点的配置,之后我添加了另一个新节点(如前所述总共为4个),无论如何,Spark上的执行器数量仍为"3".

我在网上看到可以设置执行程序的数量SPARK_EXECUTOR_INSTANCES,但是这个参数仅存spark-env template在于Ambari UI中Spark的配置页面中.似乎它要求YARN做出关于遗嘱执行人的决定,但在YARN中,我还没有发现任何关于此的事情.

在此输入图像描述

最后,如何使用Ambari增加Hortonworks Hadoop集群中执行程序的数量?

Dou*_*nna 7

Pietro,你可以在Zeppelin上改变它.

在右上角,打开菜单,然后输入"Interpreter"配置.

有一节称为"口译员".最后一小节叫做"spark",你应该在那里找到这个设置.

如果不是,只需插入它,编辑子部分.

希望有所帮助.

  • Thomas Decaux,如果您使用动态分配,可以选择`spark.dynamicAllocation.maxExecutors`,如[文档](https://spark.apache.org/docs/latest/configuration.html)所示.这将设置执行者的最大数量.执行者的初始数量是`spark.dynamicAllocation.initialExecutors`,最小值是`spark.dynamicAllocation.minExecutors`.如果你不想玩`spark.dynamicAllocation`,你还可以设置`spark.executor.instances`(作为--num-executors的替代). (4认同)

Erk*_*rin 5

从右上角,单击向下箭头 -> 单击解释器 -> 找到 Spark2 解释器 -> 编辑它 -> 添加以下两个:

  • Spark.shuffle.service.enabled -> true
  • Spark.dynamicAllocation.enabled -> true