带有独立主节点和2个工作节点的Spark独立群集,每个工作节点上有4个cpu核心。所有工人共有8个核心。
通过spark-submit运行以下命令时(未设置spark.default.parallelism)
val myRDD = sc.parallelize(1 to 100000)
println("Partititon size - " + myRDD.partitions.size)
val totl = myRDD.reduce((x, y) => x + y)
println("Sum - " + totl)
Run Code Online (Sandbox Code Playgroud)
返回分区大小的值2。
通过连接到Spark独立集群使用spark-shell时,相同代码返回正确的分区大小8。
可能是什么原因?
谢谢。