相关疑难解决方法(0)

如何交叉验证RandomForest模型?

我想评估正在训练某些数据的随机森林.Apache Spark中是否有任何实用程序可以执行相同操作,还是必须手动执行交叉验证?

random-forest cross-validation apache-spark apache-spark-ml apache-spark-mllib

21
推荐指数
1
解决办法
2万
查看次数

Sparks RDD.randomSplit如何实际拆分RDD

所以假设我有一个3000行的rdd.2000个第一行是1类,最后1000行是class2.RDD分区为100个分区.

打电话的时候 RDD.randomSplit(0.8,0.2)

该功能是否也会改变rdd?我们的分裂只是连续20%的rdd样品?或者它是随机选择20%的分区?

理想情况下,生成的拆分与原始RDD具有相同的类分布.(即2:1)

谢谢

apache-spark rdd

17
推荐指数
1
解决办法
9993
查看次数