回归树的对数变换因变量

air*_*707 6 regression machine-learning cross-validation

我有一个数据集,在其中发现因变量(目标)具有偏斜的分布-即,存在一些非常大的值和一条长尾巴。

当我运行回归树时,将为大型观测值创建一个终端节点,为大多数其他观测值创建一个终端节点。

对数转换对因变量(目标变量)并将其用于回归树分析是否可以?尝试此操作时,我得到了一组不同的节点和拆分,似乎在每个存储桶中观察值的分布更加均匀。通过对数转换,“预测值”与“观察值”的Rsquare值也非常好。换句话说,通过日志转换,我似乎获得了更好的测试和验证性能。只是要确保对数转换是因变量具有偏斜分布时运行回归树的一种公认方法。

谢谢 !

San*_*eep 12

是的。当目标变量具有偏态分布时,对目标变量应用对数变换是完全没问题的。话虽如此,您需要在预测值之上应用反函数以获得实际预测目标值。

此外,您已经通过转换测试了您对 Rsquare 误差的更好估计。我假设您在使用指数函数反转日志后计算了 R 方。

有关更多详细信息,请参阅有关数据转换的wiki 链接

请注意,如果您的训练数据包含任何负目标值,则不能直接应用对数转换。您可能需要应用一些其他可以接受负值的函数。