详细说明:
通常,在编写spark作业时,需要为不同的spark配置指定特定值,以便以最佳方式使用群集资源.我们可以在初始化SparkSession时以编程方式执行此操作:
SparkSession.builder .appName(SPARK_APP_NAME).config("spark.executor.memory","1G")
我想知道的是:使用Cloud Dataproc时我们还需要这样做吗?实际上,在创建Dataproc集群时,会初始化一个名为的属性文件cluster.properies并包含类似的值spark\:spark.executor.memory=2688m.所以,我想知道Dataproc是否会根据群集资源自动填充这些值,在这种情况下,我们不必手动/编程调整这些火花配置?