R gbm函数中的权重参数

Question

weightsR gbm函数的论据是什么？它是否实施成本敏感的随机梯度增强？

Answer 1

您可能已经读过这篇文章，但文档说参数weights是这样定义的：

\n\n

\n
拟合过程中使用的可选权重向量。必须为正，但不需要标准化。如果在对 gbm 的初始调用中 keep.data=FALSE，则用户有责任向 gbm.more 重新提供权重。
\n

\n\n

因此，我的解释是它们是任何统计模型中的标准观察权重。

\n\n

对成本敏感吗？好问题。我首先注意到该包的主要引用之一是：

\n\n

\n\n

所以我认为它确实意味着成本敏感性，但在插图中没有明确使用该术语，所以如果它不明显的话。

\n\n

不过，我做了一些更深入的研究，发现了更多资源。您可以在描述该包的本文末尾找到描述权重的方程。

\n\n

我还发现这个问题早在 2009 年就在邮件列表中被问过，虽然没有回应，但我最终找到了一篇学术文章，讨论使用gbmR 包和其他 R 包进行成本敏感的梯度提升。

\n\n

结论是，gbm分位数损失函数是可微分的，可用于成本敏感的应用，其中高估/低估具有不同的误差成本，但是在某些应用中其他定量损失函数（除了分位数）可能是必要/适当的成本敏感的梯度提升。

\n\n

该论文主要围绕gbm但也讨论了其他软件包，如果您的重点是成本敏感的梯度提升，那么您可能还想看看他们在论文中提到的其他软件包。

\n