ost*_*mer 5 statistics r factors random-forest
或者包会意识到它们不连续并将它们视为因素吗?我知道,对于分类来说,被分类的特征确实需要成为一个因素。但是预测功能呢?我已经在几个玩具数据集上运行了它,根据分类特征是数字还是因子,我得到的结果略有不同,但算法是随机的,所以我不知道结果的差异是否有意义。
谢谢你!
是的,两者之间是有区别的。如果您想使用因子变量,您应该将其指定为因子变量,而不是将其保留为数字。
\n\n对于分类数据(此实际上是 CrossValidated 上的一个非常好的答案):
\n\n\n\n\n对具有 N 个级别的因子进行拆分实际上是选择 (2^N)\xe2\x88\x922 种可能组合之一。因此,算法将检查所有可能的组合并选择产生更好分割的组合
\n
对于数值数据(如此处所示:
\n\n\n\n\n对数值预测变量进行排序,然后计算每个值的基尼杂质或熵,并选择给出最佳分割的阈值。
\n
所以是的,无论您将其添加为因子还是数字变量,都会有所不同。差异有多大,还要看实际数据。
\n