小编Y. *_*Xue的帖子

为什么 R 和 Python 之间得到不同的 RandomForest 结果?

我正在尝试比较使用 R 和使用 Python 的随机森林模型的结果。我要比较的模型性能的关键衡量标准是 AUC(ROC 曲线下的面积)。原因是 AUC 值代表了预测值(即概率)的分布。我确实发现 R 和 Python 之间的 AUC 值存在一些显着差异。我确实阅读了 Stack Overflow 上有关 R 和 Python 之间差异的一些相关问题和答案。但是,我觉得我的问题应该与那些不同。

我尝试在 R 和 Python 中保持一些关键的超参数相同。他们是:

  1. R 中的设置ntree等于n_estimatorsPython 中的设置
  2. R 中的设置mtry等于 max_featuresPython 中的设置
  3. R 中的设置nodesize等于min_samples_leafPython 中的设置
  4. 将类别权重设置为 R 和 Python 中的默认值。在 R 中,默认值为NULL。在 Python 中,默认值为None.
  5. 将 R 中的样本大小设置为训练数据中的总行数,这是 Python 中的默认设置。
  6. 在 R 中设置replace等于bootstrap在 Python 中,即两者都是True或两者都是False

该问题是一个二分类问题,有 …

python r machine-learning random-forest scikit-learn

7
推荐指数
0
解决办法
4435
查看次数