分类数据的随机森林分类器?

ASH*_*ASH 2 python machine-learning python-3.x random-forest

我最近一直在使用随机森林回归,并且得到了很棒的结果。我在网上读到,您可以使用随机森林分类器来处理分类数据,并且我在 Google 上搜索了一些示例,但我找不到任何非常有用的东西。我看到了几篇关于将分类数据一次性编码为数值数据的文章,但据我所知,这对于随机森林方法来说并不是一个好主意。如果您实际上可以使用随机森林技术根据分类数据预测结果,请分享一些资源(链接、代码等)。我很想测试这个概念。我似乎找不到关于这个主题的好的教程。我正在Python环境中工作。谢谢。

Dav*_* ND 6

对于回归和二元分类,决策树(以及 RF)实现应该能够处理分类数据。这个想法在 CART (1984) 的原始论文中提出,并表示可以通过考虑按平均响应排序的类别来找到最佳分割,然后按此处理它们。您可以在这里 找到问题的解释
对于多类分类,问题有点复杂。

无论如何,这种方法可能会导致一些过度拟合,因为您实际上正在使用一些目标编码(对于 RF 来说不应该是太大的问题,对于增强型机器来说可能更多)。然而,许多实现不允许对分类变量进行自动分割,因此最好了解在树中进行编码的最佳方法。我推荐这篇中等文章和这篇博客文章。

最后,一些实现以不同的方式但有效地处理分类数据。我建议查看H2O 的实现,它使用一种很好的分箱方法来进行快速分割。