随机森林是否随机采样每棵树的数据?

ams*_*am1 1 machine-learning

我喜欢装袋随机重新采样每棵树的训练集,随机森林为每棵树随机选择一个特征子集。

我的问题是,随机森林是否也会对训练集进行重新采样以及随机抽取特征子集。它实际上是双随机吗?

Ore*_*tar 5

答案是肯定的,大多数时候,如果你愿意的话。

随机森林引导数据并随机选择特征。引导意味着它对与原始数据集大小相同的数据集进行采样,但进行了替换。因此,如果您有 N 个数据点,则每棵树将使用 N 个数据点,但有些可能会重复(因为它会一一采样并替换)。

然而,这真的取决于你做什么。在 sklearn 实现中,默认是引导,但您可以标记 bootstarp=False,然后您只有随机特征选择。请参阅此处的文档:http : //scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html