为 gbm 交互强度实现零分布

Question

为 gbm 交互强度实现零分布

我正在尝试使用 Friedman 和 Popescu 2008 https://projecteuclid.org/euclid.aoas/1223908046 中描述的方法确定 gbm 模型中的哪些交互是重要的。我的 gbm 是一个有 9 个不同类别的分类模型。我正在努力将第 8.3 节翻译成代码以在 R 中运行。

我认为整个过程是：

用 max.depth = 1 训练模型的一个版本
模拟来自该模型的响应数据
在此数据上训练一个新模型，最大深度与真实模型相同
获取此模型的交互强度
重复步骤 1-4 以创建交互强度的零分布

我发现最令人困惑的部分是实现方程 48 和 49。（您必须查看链接的文章，因为我无法在此处重现它们）

这是我认为我理解的，但如果我错了，请纠正我：

y_i是一个新的响应向量，我们将使用它来训练一个新模型，该模型将提供交互统计的零分布。

F_A(x_i)是使用 max.depth = 1 训练的 gbm 模型版本的预测

b_i是基于加法模型F_A(x_i)预测的 0 到 1 之间的概率

问题

什么是下标i？它是引导程序中的迭代次数吗？

每个人工数据集与其他数据集有何不同？

我们是否将Pr(b_i = 1) 代入方程 48？

这如何通过多项分类来完成？

如何在 R 中实现这一点？最好使用 gbm 包。

欢迎任何想法或参考！

Answer 1

Rya*_*wan 1

总体而言，该过程是一种y通过排列/重新分配建模对交互的额外贡献来中和交互影响的优雅方法。额外的贡献可以通过完整模型和附加模型之间的差距来捕获。

什么是下标i？是引导程序中的迭代次数吗？

它是样本的索引。N每次迭代都有样本。

每个人工数据集与其他数据集有何不同？

各个数据集的预测变量X是相同的。Y~由于中边距的随机排列equation 47和中的随机实现（仅适用于分类结果），响应值有所不同equation 48。

我们是否将 Pr(b_i = 1) 代入equation 48？

是的，如果结果Y是二元的。

如何通过多项分类来完成此任务？

一种方法是随机排列每个类别的对数赔率中的边际。然后根据加性模型的概率进行随机实现。

如何在 R 中实现这一点？最好使用gbm包。

我尝试按照您的整体流程来实施它。

{X1,X2,Y}首先，大小N= 200的模拟训练数据集，其中具有由, 确定的概率实现的Y三个类别 ( Y1, Y2, ) 。相互作用部分*在中，而加法部分在,中。Y3X1X2X1X2Y1Y2Y3

set.seed(1)
N <- 200
X1 <- rnorm(N) # 2 predictors
X2 <- rnorm(N)

#log-odds for 3 categories
Y1 <- 2*X1*X2 + rnorm(N, sd=1/10) # interaction
Y2 <- X1^2 + rnorm(N, sd=1/10) #additive
Y3 <- X2^2 + rnorm(N, sd=1/10) #additive
Y <- rep(NA, N) # Multinomial outcome with 3 categories
for (i in 1:N)
  {
    prob <- 1 / (1 + exp(-c(Y1[i],Y2[i],Y3[i]))) #logistic regression
    Y[i] <- which.max(rmultinom(1, 10000, prob=prob)) #realisation from prob
  }
Y <- factor(Y)
levels(Y) <- c('Y1','Y2','Y3')
table(Y)
#Y1 Y2 Y3 
#38 75 87
dat = data.frame(Y, X1, X2)
head(dat)
# Y         X1         X2
# 2 -0.6264538  0.4094018
# 3  0.1836433  1.6888733
# 3 -0.8356286  1.5865884
# 2  1.5952808 -0.3309078
# 3  0.3295078 -2.2852355
# 3 -0.8204684  2.4976616

Run Code Online (Sandbox Code Playgroud)

分别使用 = 2 和 1 训练完整模型和附加模型max.depth。

library(gbm)
n.trees <- 100
F_full <- gbm(Y ~ ., data=dat, distribution='multinomial', n.trees=n.trees, cv.folds=3,
            interaction.depth=2) # consider interactions
F_additive <- gbm(Y ~ ., data=dat, distribution='multinomial', n.trees=n.trees, cv.folds=3,
            interaction.depth=1) # ignore interactions

#use improved prediction as interaction strength
interaction_strength_original <- min(F_additive$cv.error) - min(F_full$cv.error)
> 0.1937891

Run Code Online (Sandbox Code Playgroud)

模拟该模型的响应数据。

#randomly permute margins (residuals) of log-odds to remove any interaction effects
margin <- predict(F_full, n.trees=gbm.perf(F_full, plot.it=FALSE), type='link')[,,1] -
         predict(F_additive, n.trees=gbm.perf(F_additive, plot.it=FALSE), type='link')[,,1]
margin <- apply(margin, 2, sample) #independent permutation for each category (Y1, Y2, Y3)

Y_art <- rep(NA, N) #response values of an artificial dataset
for (i in 1:N)
  {
    prob <- predict(F_additive, n.trees=gbm.perf(F_additive, plot.it=FALSE), type='link',
                  newdata=dat[i,])
    prob <- prob + margin[i,] # equation (47)
    prob <- 1 / (1 + exp(-prob))
    Y_art[i] <- which.max(rmultinom(1, 1000, prob=prob)) #Similar to random realisation in equation (49)
  }
Y_art <- factor(Y_art)
levels(Y_art) = c('Y1','Y2','Y3')

table(Y_art)
#Y1 Y2 Y3 
#21 88 91

Run Code Online (Sandbox Code Playgroud)

在此人工数据上训练新模型，其中max.depth（2）与真实模型相同

F_full_art = gbm(Y_art ~ ., distribution='multinomial', n.trees=n.trees, cv.folds=3,
            data=data.frame(Y_art, X1, X2),
            interaction.depth=2)
F_additive_art = gbm(Y_art ~ ., distribution='multinomial', n.trees=n.trees, cv.folds=3,
            data=data.frame(Y_art, X1, X2),
            interaction.depth=1)

Run Code Online (Sandbox Code Playgroud)

获取该模型的交互强度

interaction_strength_art = min(F_additive_art$cv.error) - min(F_full_art$cv.error)
> 0.01323959 # much smaller than interaction_strength_original in step 1.

Run Code Online (Sandbox Code Playgroud)

重复步骤 2-4 以创建交互强度的零分布。正如预期的那样，中和数据集中的交互效应（-0.0527 至 0.0421）比原始训练数据集（0.1938）低得多。

interaction_strength_art <- NULL
for (j in 1:10)
  { 
    print(j)
    interaction_strength_art <- c(interaction_strength_art, step_2_to_4())
  }

summary(interaction_strength_art)
#     Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
#-0.052648 -0.019415  0.001124 -0.004310  0.012759  0.042058

interaction_strength_original
> 0.1937891

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，11 月前
查看次数：	133 次
最近记录：	5 年，6 月前