R gbm函数中的权重参数

Ant*_*ine 5 r classification machine-learning data-mining gbm

weightsR gbm函数的论据是什么?它是否实施成本敏感的随机梯度增强?

Hac*_*k-R 4

您可能已经读过这篇文章,但文档说参数weights是这样定义的:

\n\n
\n

拟合过程中使用的可选权重向量。必须为正,但不需要标准化。如果在对 gbm 的初始调用中 keep.data=FALSE,则用户有责任向 gbm.more 重新提供权重。

\n
\n\n

因此,我的解释是它们是任何统计模型中的标准观察权重。

\n\n

对成本敏感吗?好问题。我首先注意到该包的主要引用之一是:

\n\n

B.克里格勒(2007)。定量回归框架内的成本敏感随机梯度提升

\n\n

所以我认为它确实意味着成本敏感性,但在插图中没有明确使用该术语,所以如果它不明显的话。

\n\n

不过,我做了一些更深入的研究,发现了更多资源。您可以在描述该包的本文末尾找到描述权重的方程。

\n\n

我还发现这个问题早在 2009 年就在邮件列表中被问过,虽然没有回应,但我最终找到了一篇学术文章,讨论使用gbmR 包和其他 R 包进行成本敏感的梯度提升。

\n\n

结论是,gbm分位数损失函数是可微分的,可用于成本敏感的应用,其中高估/低估具有不同的误差成本,但是在某些应用中其他定量损失函数(除了分位数)可能是必要/适当的成本敏感的梯度提升。

\n\n

该论文主要围绕gbm但也讨论了其他软件包,如果您的重点是成本敏感的梯度提升,那么您可能还想看看他们在论文中提到的其他软件包。

\n