并行化随机森林

Fra*_* M. 5 parallel-processing r random-forest

通过搜索和询问,我发现了许多可以用来利用服务器所有核心的软件包,以及许多可以进行随机森林的软件包。

我对此很陌生,并且在并行随机森林训练的所有方法中迷失了方向。您能否就使用和/或避免它们中的每一个或它们的某些特定组合(以及有或没有caret?)的理由提出一些建议,并已证明?

并行化包:

doParallel,

doSNOW,

doSMP(停产了?),

doMC

(那又怎么样mclapply?)


随机森林包:

[ caret+以下一些内容]

rf,

parRF,

randomForest,

ranger,

Rborist,

parallelRandomForest(导致我的 R Studio 会话崩溃...)

谢谢

Tch*_*hke 3

关于 SO 有一些答案,例如R 中随机森林的并行执行加速随机森林的建议,我会看一下。

这些帖子很有帮助,但有点旧了。该ranger软件包是随机森林的一种特别快速的实现,因此,如果您对此不熟悉,这可能是加速模型训练的最简单方法。他们的论文讨论了一些可用软件包的权衡 - 根据您的数据大小和功能数量,哪个软件包为您提供最佳性能会有所不同。