ScikitLearn中的Unconclusive RandomForest文档

Question

ScikitLearn中的Unconclusive RandomForest文档

Kar*_*lak 5 python random-forest scikit-learn

在的集成方法文档Scikit-了解http://scikit-learn.org/stable/modules/ensemble.html#id6在第1.9.2.3.我们读到的参数:

(...)当min_samples_split = 1(即完全开发树木时)设置max_depth = None时,通常也会达到最佳效果.请记住,这些值通常不是最佳的.应始终交叉验证最佳参数值.

那么最佳结果和最佳结果之间有什么区别？我认为通过最佳结果,作者意味着最佳的交叉验证预测结果.

此外,请注意默认情况下,bootstrap样本在随机林中使用(bootstrap = True),而默认策略是使用原始数据集构建额外树(bootstrap = False).

我通过以下方式理解这一点:默认情况下,在Scikit-Learns实现中使用bootstrapping,但默认策略是不使用bootstrapping.如果是这样,那么默认策略的来源是什么？为什么它不是实现中的默认策略？

Answer 1

ogr*_*sel 3

我同意第一句话是自相矛盾的。也许下面的内容会更好：

最好的结果通常也可以通过完全开发的树来实现（max_depth=None 和 min_samples_split=1）。但请记住，这些值通常不能保证是最佳的。最佳参数值应始终进行交叉验证。

对于第二个引用，它将bootstrap随机森林 (RandomForestClassifier和RandomForestRegression) 的参数默认值与类ExtraTreesClassifier和中实现的极其随机的树进行比较ExtraTreesRegressor。下面的内容可能更明确：

此外，请注意，随机森林中默认使用引导样本 (bootstrap=True)，而构建额外树时，默认策略是使用原始数据集 (bootstrap=False)。

如果您发现这些表述更容易理解，请随时提交包含修复程序的 PR。

归档时间：	10 年，9 月前
查看次数：	206 次
最近记录：	10 年，9 月前