分解随机森林分类适合python中的部分?

gra*_*per 7 python machine-learning scikit-learn

我有将近 900,000 行信息要通过 scikit-learn 的随机森林分类器算法运行。问题是,当我尝试创建模型时,我的计算机完全冻结,所以我想尝试每 50,000 行运行一次模型,但我不确定这是否可行。

所以我现在的代码是

# This code freezes my computer
rfc.fit(X,Y)

#what I want is
model = rfc.fit(X.ix[0:50000],Y.ix[0:50000])
model = rfc.fit(X.ix[0:100000],Y.ix[0:100000])
model = rfc.fit(X.ix[0:150000],Y.ix[0:150000])
#... and so on
Run Code Online (Sandbox Code Playgroud)

And*_*eus 1

scikit-learn 中的一些算法实现了“partial_fit()”方法,这正是您正在寻找的。有随机森林算法可以做到这一点,但是,我相信 scikit-learn 算法不是这样的算法。

但是,这个问题和答案可能有一个适合您的解决方法。您可以在不同的子集上训练森林,并最终组装一个非常大的森林: Combining random Forest models in scikit learn