在 python 中训练随机森林时,哪种 dtype 表现更好?

Cha*_* Li 4 python pandas scikit-learn

我试图randomforest用 python 训练一个分类器。然而,在我的原始版本中pandas.dataframe,有float64、object、datetime64、int64 和 bool dtypes(几乎是 pandas 中允许的所有类型的数据类型)。

  • 是否有必要将bool转换为floatint
  • 对于二值对象列,我应该将其转换为boolintfloat吗?哪一个会表现得更好?还是没关系?

谢谢!

jak*_*vdp 5

几乎所有 scikit-learn 估计器都会在运行算法之前将输入数据转换为浮点数,无论数组中的原始类型如何。这适用于随机森林的实现。