我正在尝试使用 Friedman 和 Popescu 2008 https://projecteuclid.org/euclid.aoas/1223908046 中描述的方法确定 gbm 模型中的哪些交互是重要的。我的 gbm 是一个有 9 个不同类别的分类模型。我正在努力将第 8.3 节翻译成代码以在 R 中运行。
我认为整个过程是:
我发现最令人困惑的部分是实现方程 48 和 49。(您必须查看链接的文章,因为我无法在此处重现它们)
这是我认为我理解的,但如果我错了,请纠正我:
y_i是一个新的响应向量,我们将使用它来训练一个新模型,该模型将提供交互统计的零分布。
F_A(x_i)是使用 max.depth = 1 训练的 gbm 模型版本的预测
b_i是基于加法模型F_A(x_i)预测的 0 到 1 之间的概率
欢迎任何想法或参考!