小编Y. _Xue的帖子

为什么 R 和 Python 之间得到不同的 RandomForest 结果？

我正在尝试比较使用 R 和使用 Python 的随机森林模型的结果。我要比较的模型性能的关键衡量标准是 AUC（ROC 曲线下的面积）。原因是 AUC 值代表了预测值（即概率）的分布。我确实发现 R 和 Python 之间的 AUC 值存在一些显着差异。我确实阅读了 Stack Overflow 上有关 R 和 Python 之间差异的一些相关问题和答案。但是，我觉得我的问题应该与那些不同。

我尝试在 R 和 Python 中保持一些关键的超参数相同。他们是：

R 中的设置ntree等于n_estimatorsPython 中的设置
R 中的设置mtry等于 max_featuresPython 中的设置
R 中的设置nodesize等于min_samples_leafPython 中的设置
将类别权重设置为 R 和 Python 中的默认值。在 R 中，默认值为NULL。在 Python 中，默认值为None.
将 R 中的样本大小设置为训练数据中的总行数，这是 Python 中的默认设置。
在 R 中设置replace等于bootstrap在 Python 中，即两者都是True或两者都是False。

该问题是一个二分类问题，有 …

python r machine-learning random-forest scikit-learn

7
推荐指数

0
解决办法

4435
查看次数

标签统计

machine-learning ×1

r ×1

random-forest ×1

scikit-learn ×1