所以假设我有一个3000行的rdd.2000个第一行是1类,最后1000行是class2.RDD分区为100个分区.
打电话的时候 RDD.randomSplit(0.8,0.2)
RDD.randomSplit(0.8,0.2)
该功能是否也会改变rdd?我们的分裂只是连续20%的rdd样品?或者它是随机选择20%的分区?
理想情况下,生成的拆分与原始RDD具有相同的类分布.(即2:1)
谢谢
apache-spark rdd
apache-spark ×1
rdd ×1