相关疑难解决方法(0)

我想评估正在训练某些数据的随机森林.Apache Spark中是否有任何实用程序可以执行相同操作,还是必须手动执行交叉验证？

21
推荐指数

1
解决办法

2万
查看次数

所以假设我有一个3000行的rdd.2000个第一行是1类,最后1000行是class2.RDD分区为100个分区.

打电话的时候 RDD.randomSplit(0.8,0.2)

该功能是否也会改变rdd？我们的分裂只是连续20%的rdd样品？或者它是随机选择20%的分区？

理想情况下,生成的拆分与原始RDD具有相同的类分布.(即2:1)

谢谢

17
推荐指数

1
解决办法

9993
查看次数

rdd ×1