我正在尝试比较使用 R 和使用 Python 的随机森林模型的结果。我要比较的模型性能的关键衡量标准是 AUC(ROC 曲线下的面积)。原因是 AUC 值代表了预测值(即概率)的分布。我确实发现 R 和 Python 之间的 AUC 值存在一些显着差异。我确实阅读了 Stack Overflow 上有关 R 和 Python 之间差异的一些相关问题和答案。但是,我觉得我的问题应该与那些不同。
我尝试在 R 和 Python 中保持一些关键的超参数相同。他们是:
ntree
等于n_estimators
Python 中的设置mtry
等于 max_features
Python 中的设置nodesize
等于min_samples_leaf
Python 中的设置NULL
。在 Python 中,默认值为None
.replace
等于bootstrap
在 Python 中,即两者都是True
或两者都是False
。该问题是一个二分类问题,有 …