Sau*_*han 0 r machine-learning h2o sparkr
目前,我正在使用h2o.ai和对机器学习库进行调查SparkMLlib。我已经确定,h2o.ai与 相比SparkMLlib,库支持更多 ML 算法,并且将 Spark 数据帧划分到训练和测试集似乎很困难(需要将 Spark 数据帧转换为 R/h2o 数据帧,这也是时间/资源消耗)。
使用h2o.ai库的其他优点/缺点是什么,SparkMLib反之亦然?我注重h2o.ai和SparkMLlib成的R执行(SparkR)。所以 h2o(as.h2o)和 SparkMLlib的数据帧(as.DataFrame)是不同的。
部分地,我使用以下链接找出答案:http : //datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o
这里提供了详细的对比分析:https : //github.com/szilard/benchm-ml
基准测试结果幻灯片:https : //speakerdeck.com/szilard/benchmarking-machine-learning-tools-for-scalability-speed-and-accuracy-la-ml-meetup-at-eharmony-june-2015
基准测试结果视频:https : //vimeopro.com/eharmony/talks/video/132838730
机器学习库分析技术报告:https : //github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf