小编Sam*_*ami的帖子

用于火花提交的Parallelize RDD的spark.default.parallelism默认为2

带有独立主节点和2个工作节点的Spark独立群集，每个工作节点上有4个cpu核心。所有工人共有8个核心。

通过spark-submit运行以下命令时（未设置spark.default.parallelism）

val myRDD = sc.parallelize(1 to 100000)
println("Partititon size - " + myRDD.partitions.size)
val totl = myRDD.reduce((x, y) => x + y)
println("Sum - " + totl)

Run Code Online (Sandbox Code Playgroud)

返回分区大小的值2。

通过连接到Spark独立集群使用spark-shell时，相同代码返回正确的分区大小8。

可能是什么原因？

谢谢。

scala apache-spark

Sam*_*ami

2016 02-14

6
推荐指数

1
解决办法

2万
查看次数

标签统计

apache-spark ×1

scala ×1

用于火花提交的Parallelize RDD的spark.default.parallelism默认为2

标签 统计

小编Sam_ami的帖子

标签统计