Abh*_*sar 3 machine-learning random-forest scikit-learn
python中的随机森林分类器是否需要one-hot编码?我想从逻辑上理解随机森林是否可以使用标签编码而不是单热编码来处理分类特征。
小智 8
编码的概念在机器学习中是必要的,因为在它的帮助下,我们可以将非数字特征转换为任何模型都可以理解的数字特征。
任何类型的编码都可以对任何非数字特征进行,它仅取决于直觉。
现在,回答您的问题何时使用标签编码以及何时使用 One-hot 编码:
注意:在 One-hot 编码中,您的特征数量将会增加,这对于任何基于树的算法(如决策树、随机森林等)都不利。这就是为什么在这种情况下标签编码是首选,但如果您使用 one-hot编码时,您可以使用 sklearn 中的超参数来检查分类特征的重要性feature_importances_。如果该功能的重要性较低,您可以放弃它。