相关疑难解决方法(0)

联合分区RDD的连接是否会导致Apache Spark的混乱？

rdd1.join(rdd2)如果rdd1并rdd2拥有相同的分区,会导致洗牌吗？

apache-spark spark-streaming rdd

zwb*_*zwb

2015 02-09

22
推荐指数

1
解决办法

1万
查看次数

Spark中的默认分区方案

当我执行以下命令时:

scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist()
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22

scala> rdd.partitions.size
res9: Int = 10

scala> rdd.partitioner.isDefined
res10: Boolean = true


scala> rdd.partitioner.get
res11: org.apache.spark.Partitioner = org.apache.spark.HashPartitioner@a

Run Code Online (Sandbox Code Playgroud)

它说有10个分区,分区完成使用HashPartitioner.但是当我执行以下命令时:

scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4)
...
scala> rdd.partitions.size
res6: Int = 4
scala> rdd.partitioner.isDefined
res8: Boolean = false

Run Code Online (Sandbox Code Playgroud)

它说有4个分区,并且没有定义分区器.那么,什么是Spark中的默认分区方案？/如何在第二种情况下对数据进行分区？

partitioning apache-spark rdd

Din*_*108

2017 08-19

17
推荐指数

1
解决办法

5176
查看次数