大数据集上的随机森林

ktd*_*drv 6 r machine-learning random-forest

我在R中有一个大型数据集(1M +行乘6列),我想用它来训练随机森林(使用randomForest包)以进行回归.不幸的是,我Error in matrix(0, n, n) : too many elements specified在尝试一次完成所有事情时遇到错误,并且在运行数据子集时无法分配足够的内存类型错误 - 低至10,000左右的观察.

看到我没有机会在我的机器上添加更多内存和随机森林非常适合我想要建模的过程类型,我真的很想让这个工作.

任何建议或解决方法的想法都非常感谢.

jor*_*ran 11

您可能会要求randomForest为数据创建邻近矩阵,如果您考虑它,将会非常大:100万x 100万.无论您设置多小,都需要这种尺寸的矩阵sampsize.实际上,简单地使用谷歌搜索错误消息似乎证实了这一点,因为包裹作者声明在整个源代码中n,n)找到的唯一位置 是计算邻近矩阵.

但是,由于您没有提供有关您正在使用的实际代码的详细信息,因此很难提供更多帮助.