小编see*_*e24的帖子

为 gbm 交互强度实现零分布

我正在尝试使用 Friedman 和 Popescu 2008 https://projecteuclid.org/euclid.aoas/1223908046 中描述的方法确定 gbm 模型中的哪些交互是重要的。我的 gbm 是一个有 9 个不同类别的分类模型。我正在努力将第 8.3 节翻译成代码以在 R 中运行。

我认为整个过程是:

  1. 用 max.depth = 1 训练模型的一个版本
  2. 模拟来自该模型的响应数据
  3. 在此数据上训练一个新模型,最大深度与真实模型相同
  4. 获取此模型的交互强度
  5. 重复步骤 1-4 以创建交互强度的零分布

我发现最令人困惑的部分是实现方程 48 和 49。(您必须查看链接的文章,因为我无法在此处重现它们)

这是我认为我理解的,但如果我错了,请纠正我:

y_i是一个新的响应向量,我们将使用它来训练一个新模型,该模型将提供交互统计的零分布。

F_A(x_i)是使用 max.depth = 1 训练的 gbm 模型版本的预测

b_i是基于加法模型F_A(x_i)预测的 0 到 1 之间的概率

问题

  1. 什么是下标i?它是引导程序中的迭代次数吗?
  2. 每个人工数据集与其他数据集有何不同?
  3. 我们是否将Pr(b_i = 1) 代入方程 48?
  4. 这如何通过多项分类来完成?
  5. 如何在 R 中实现这一点?最好使用 gbm 包。

欢迎任何想法或参考!

r machine-learning gbm

6
推荐指数
1
解决办法
133
查看次数

标签 统计

gbm ×1

machine-learning ×1

r ×1