小编Mad_zor的帖子

Sparks RDD.randomSplit如何实际拆分RDD

所以假设我有一个3000行的rdd.2000个第一行是1类,最后1000行是class2.RDD分区为100个分区.

打电话的时候 RDD.randomSplit(0.8,0.2)

该功能是否也会改变rdd？我们的分裂只是连续20%的rdd样品？或者它是随机选择20%的分区？

理想情况下,生成的拆分与原始RDD具有相同的类分布.(即2:1)

谢谢

apache-spark rdd

17
推荐指数

1
解决办法

9993
查看次数

标签统计

apache-spark ×1

rdd ×1