从机器学习算法的角度看 h2o.ai 和 SparkMLlib 的区别

Sau*_*han 0 r machine-learning h2o sparkr

目前,我正在使用h2o.ai和对机器学习库进行调查SparkMLlib。我已经确定,h2o.ai与 相比SparkMLlib,库支持更多 ML 算法,并且将 Spark 数据帧划分到训练和测试集似乎很困难(需要将 Spark 数据帧转换为 R/h2o 数据帧,这也是时间/资源消耗)。

使用h2o.ai库的其他优点/缺点是什么,SparkMLib反之亦然?我注重h2o.aiSparkMLlib成的R执行(SparkR)。所以 h2o(as.h2o)和 SparkMLlib的数据帧(as.DataFrame)是不同的。