小编The*_*ian的帖子

使用Google CloudDataproc时是否仍需要微调spark配置参数?

详细说明:

  • 通常,在编写spark作业时,需要为不同的spark配置指定特定值,以便以最佳方式使用群集资源.我们可以在初始化SparkSession时以编程方式执行此操作:

    SparkSession.builder .appName(SPARK_APP_NAME).config("spark.executor.memory","1G")

  • 我想知道的是:使用Cloud Dataproc时我们还需要这样做吗?实际上,在创建Dataproc集群时,会初始化一个名为的属性文件cluster.properies并包含类似的值spark\:spark.executor.memory=2688m.所以,我想知道Dataproc是否会根据群集资源自动填充这些值,在这种情况下,我们不必手动/编程调整这些火花配置?

apache-spark google-cloud-dataproc

1
推荐指数
1
解决办法
342
查看次数