R中处理大数据时存在哪些并行算法

Question

R中处理大数据时存在哪些并行算法

5 memory algorithm r machine-learning bigdata

我正在尝试找出CRAN / github / R-Forge的R或R包中的哪些统计/数据挖掘算法可以在1个服务器上并行或顺序处理大型数据集而不会遇到内存不足问题或一次可在多台计算机上运行。为了评估我是否可以轻松地将它们移植到与ffbase :: bigglm.ffdf之类的ff / ffbase一起使用。

我想将它们分为三个部分：

并行更新或处理参数估计的算法
- Buckshot（https://github.com/lianos/buckshot）
- lm.fit @大数据编程（https://github.com/RBigData）
顺序工作的算法（在R中获取数据，但仅使用1个进程，并且只有1个进程更新参数）
- bigglm（http://cran.r-project.org/web/packages/biglm/index.html）
- 复合Poisson线性模型（http://cran.r-project.org/web/packages/cplm/index.html）
- Kmeans @ biganalytics（http://cran.r-project.org/web/packages/biganalytics/index.html）
处理部分数据
- 分布式文本处理（http://www.jstatsoft.org/v51/i05/paper）

我想排除简单的并行化，例如通过交叉验证对超参数进行优化。还有其他指向此类模型/优化器或算法的指标吗？也许是贝叶斯？也许是一个名为RGraphlab（http://graphlab.org/）的软件包？

Answer 1

Gre*_*now 1

您读过CRAN 上的高性能计算任务视图吗？

它涵盖了您提到的许多要点，并概述了这些领域的软件包。

归档时间：	13 年，3 月前
查看次数：	1170 次
最近记录：	13 年，3 月前