5 memory algorithm r machine-learning bigdata
我正在尝试找出CRAN / github / R-Forge的R或R包中的哪些统计/数据挖掘算法可以在1个服务器上并行或顺序处理大型数据集而不会遇到内存不足问题或一次可在多台计算机上运行。为了评估我是否可以轻松地将它们移植到与ffbase :: bigglm.ffdf之类的ff / ffbase一起使用。
我想将它们分为三个部分:
并行更新或处理参数估计的算法
Buckshot(https://github.com/lianos/buckshot)
lm.fit @大数据编程(https://github.com/RBigData)
顺序工作的算法(在R中获取数据,但仅使用1个进程,并且只有1个进程更新参数)
bigglm(http://cran.r-project.org/web/packages/biglm/index.html)
复合Poisson线性模型(http://cran.r-project.org/web/packages/cplm/index.html)
Kmeans @ biganalytics(http://cran.r-project.org/web/packages/biganalytics/index.html)
处理部分数据
我想排除简单的并行化,例如通过交叉验证对超参数进行优化。还有其他指向此类模型/优化器或算法的指标吗?也许是贝叶斯?也许是一个名为RGraphlab(http://graphlab.org/)的软件包?
| 归档时间: |
|
| 查看次数: |
1170 次 |
| 最近记录: |