小编air*_*707的帖子

回归树的对数变换因变量

我有一个数据集,在其中发现因变量(目标)具有偏斜的分布-即,存在一些非常大的值和一条长尾巴。

当我运行回归树时,将为大型观测值创建一个终端节点,为大多数其他观测值创建一个终端节点。

对数转换对因变量(目标变量)并将其用于回归树分析是否可以?尝试此操作时,我得到了一组不同的节点和拆分,似乎在每个存储桶中观察值的分布更加均匀。通过对数转换,“预测值”与“观察值”的Rsquare值也非常好。换句话说,通过日志转换,我似乎获得了更好的测试和验证性能。只是要确保对数转换是因变量具有偏斜分布时运行回归树的一种公认方法。

谢谢 !

regression machine-learning cross-validation

6
推荐指数
1
解决办法
5235
查看次数