spark-shell的缺省执行程序和核心数

Question

如果我在spark shell中运行一个spark程序,该程序是否有可能在几个小时内占用整个hadoop集群？

通常有一个名为num-executors和executor-cores的设置.

spark-shell --driver-memory 10G --executor-memory 15G --executor-cores 8

但如果没有指定它们我只运行"spark-shell"......它会占用整个集群吗？或者是否有合理的默认值.

Answer 1

可以在Spark Configuration文档中找到大多数配置属性的默认值.对于示例中的配置属性,默认值为:

spark.driver.memory = 1g

spark.executor.memory = 1g

在YARN模式下,spark.executor.cores = 1,工作站上的所有可用内核都处于独立模式.

此外,您还可以通过创建文件来覆盖这些默认值$SPARK-HOME/conf/spark-defaults.conf与你想要的(如描述的特性在这里).然后,如果文件存在所需的值,则不需要将它们作为参数传递给spark-shell命令.