Fra*_* M. 5 parallel-processing r random-forest
通过搜索和询问,我发现了许多可以用来利用服务器所有核心的软件包,以及许多可以进行随机森林的软件包。
我对此很陌生,并且在并行随机森林训练的所有方法中迷失了方向。您能否就使用和/或避免它们中的每一个或它们的某些特定组合(以及有或没有caret?)的理由提出一些建议,并已证明?
并行化包:
doParallel,
doSNOW,
doSMP(停产了?),
doMC
(那又怎么样mclapply?)
随机森林包:
[ caret+以下一些内容]
rf,
parRF,
randomForest,
ranger,
Rborist,
parallelRandomForest(导致我的 R Studio 会话崩溃...)
谢谢
关于 SO 有一些答案,例如R 中随机森林的并行执行和加速随机森林的建议,我会看一下。
这些帖子很有帮助,但有点旧了。该ranger软件包是随机森林的一种特别快速的实现,因此,如果您对此不熟悉,这可能是加速模型训练的最简单方法。他们的论文讨论了一些可用软件包的权衡 - 根据您的数据大小和功能数量,哪个软件包为您提供最佳性能会有所不同。