Ant*_*ine 5 r classification machine-learning data-mining gbm
weightsR gbm函数的论据是什么?它是否实施成本敏感的随机梯度增强?
您可能已经读过这篇文章,但文档说参数weights是这样定义的:
\n\n\n拟合过程中使用的可选权重向量。必须为正,但不需要标准化。如果在对 gbm 的初始调用中 keep.data=FALSE,则用户有责任向 gbm.more 重新提供权重。
\n
因此,我的解释是它们是任何统计模型中的标准观察权重。
\n\n对成本敏感吗?好问题。我首先注意到该包的主要引用之一是:
\n\nB.克里格勒(2007)。定量回归框架内的成本敏感随机梯度提升。
\n\n所以我认为它确实意味着成本敏感性,但在插图中没有明确使用该术语,所以如果它不明显的话。
\n\n不过,我做了一些更深入的研究,发现了更多资源。您可以在描述该包的本文末尾找到描述权重的方程。
\n\n我还发现这个问题早在 2009 年就在邮件列表中被问过,虽然没有回应,但我最终找到了一篇学术文章,讨论使用gbmR 包和其他 R 包进行成本敏感的梯度提升。
结论是,gbm分位数损失函数是可微分的,可用于成本敏感的应用,其中高估/低估具有不同的误差成本,但是在某些应用中其他定量损失函数(除了分位数)可能是必要/适当的成本敏感的梯度提升。
该论文主要围绕gbm但也讨论了其他软件包,如果您的重点是成本敏感的梯度提升,那么您可能还想看看他们在论文中提到的其他软件包。
| 归档时间: |
|
| 查看次数: |
2965 次 |
| 最近记录: |