小编use*_*023的帖子

我正在使用Spark的Python API并运行Spark 0.8.

我正在存储一个大的RDD浮点向量,我需要对整个集合执行一个向量的计算.

RDD中的切片和分区之间有什么区别吗？

当我创建RDD时,我将其作为参数传递100,这使得它将RDD存储为100个切片并在执行计算时创建100个任务.我想知道,通过使系统更有效地处理数据,分区数据是否会提高切片之外的性能(即,在分区上执行操作与在切片RDD中的每个元素上操作之间是否存在差异).

例如,这两段代码之间是否有任何显着差异？

rdd = sc.textFile(demo.txt, 100)

rdd = sc.textFile(demo.txt)
rdd.partitionBy(100)

12
推荐指数

1
解决办法

5289
查看次数

小编use_023的帖子