我想评估正在训练某些数据的随机森林.Apache Spark中是否有任何实用程序可以执行相同操作,还是必须手动执行交叉验证?
random-forest cross-validation apache-spark apache-spark-ml apache-spark-mllib
所以假设我有一个3000行的rdd.2000个第一行是1类,最后1000行是class2.RDD分区为100个分区.
打电话的时候 RDD.randomSplit(0.8,0.2)
该功能是否也会改变rdd?我们的分裂只是连续20%的rdd样品?或者它是随机选择20%的分区?
理想情况下,生成的拆分与原始RDD具有相同的类分布.(即2:1)
谢谢