小编see*_*e24的帖子

为 gbm 交互强度实现零分布

我正在尝试使用 Friedman 和 Popescu 2008 https://projecteuclid.org/euclid.aoas/1223908046 中描述的方法确定 gbm 模型中的哪些交互是重要的。我的 gbm 是一个有 9 个不同类别的分类模型。我正在努力将第 8.3 节翻译成代码以在 R 中运行。

我认为整个过程是：

用 max.depth = 1 训练模型的一个版本
模拟来自该模型的响应数据
在此数据上训练一个新模型，最大深度与真实模型相同
获取此模型的交互强度
重复步骤 1-4 以创建交互强度的零分布

我发现最令人困惑的部分是实现方程 48 和 49。（您必须查看链接的文章，因为我无法在此处重现它们）

这是我认为我理解的，但如果我错了，请纠正我：

y_i是一个新的响应向量，我们将使用它来训练一个新模型，该模型将提供交互统计的零分布。

F_A(x_i)是使用 max.depth = 1 训练的 gbm 模型版本的预测

b_i是基于加法模型F_A(x_i)预测的 0 到 1 之间的概率

问题

什么是下标i？它是引导程序中的迭代次数吗？

每个人工数据集与其他数据集有何不同？

我们是否将Pr(b_i = 1) 代入方程 48？

这如何通过多项分类来完成？

如何在 R 中实现这一点？最好使用 gbm 包。

欢迎任何想法或参考！

r machine-learning gbm

see*_*e24

2020 06-20

6
推荐指数

1
解决办法

133
查看次数

标签统计

gbm ×1

machine-learning ×1

r ×1

为 gbm 交互强度实现零分布

问题

标签 统计

小编see_e24的帖子

标签统计