R：实现我自己的梯度提升算法

Question

R：实现我自己的梯度提升算法

Adr*_*ian 10 r machine-learning gradient-descent gbm boosting

我正在尝试编写自己的梯度提升算法。我知道有像这样的现有包gbm，xgboost,但我想通过编写自己的包来了解算法的工作原理。

我正在使用iris数据集，我的结果是Sepal.Length（连续）。我的损失函数是mean(1/2*(y-yhat)^2)（基本上是前面有 1/2 的均方误差），所以我对应的梯度就是残差y - yhat。我将预测初始化为 0。

library(rpart)
data(iris)

#Define gradient
grad.fun <- function(y, yhat) {return(y - yhat)}

mod <- list()

grad_boost <- function(data, learning.rate, M, grad.fun) {
  # Initialize fit to be 0
  fit <- rep(0, nrow(data))
  grad <- grad.fun(y = data$Sepal.Length, yhat = fit)

  # Initialize model
  mod[[1]] <- fit

  # Loop over a total of M iterations
  for(i in 1:M){

    # Fit base learner (tree) to the gradient
    tmp <- data$Sepal.Length
    data$Sepal.Length <- grad
    base_learner <- rpart(Sepal.Length ~ ., data = data, control = ("maxdepth = 2"))
    data$Sepal.Length <- tmp

    # Fitted values by fitting current model
    fit <- fit + learning.rate * as.vector(predict(base_learner, newdata = data))

    # Update gradient
    grad <- grad.fun(y = data$Sepal.Length, yhat = fit)

    # Store current model (index is i + 1 because i = 1 contain the initialized estiamtes)
    mod[[i + 1]] <- base_learner

  }
  return(mod)
}

Run Code Online (Sandbox Code Playgroud)

有了这个，我将iris数据集拆分为训练和测试数据集，并将我的模型拟合到其中。

train.dat <- iris[1:100, ]
test.dat <- iris[101:150, ]
learning.rate <- 0.001
M = 1000
my.model <- grad_boost(data = train.dat, learning.rate = learning.rate, M = M, grad.fun = grad.fun)

Run Code Online (Sandbox Code Playgroud)

现在我从计算预测值my.model。对于my.model，拟合值为0 (vector of initial estimates) + learning.rate * predictions from tree 1 + learning rate * predictions from tree 2 + ... + learning.rate * predictions from tree M。

yhats.mymod <- apply(sapply(2:length(my.model), function(x) learning.rate * predict(my.model[[x]], newdata = test.dat)), 1, sum)

# Calculate RMSE
> sqrt(mean((test.dat$Sepal.Length - yhats.mymod)^2))
[1] 2.612972

Run Code Online (Sandbox Code Playgroud)

我有几个问题

我的梯度提升算法看起来正确吗？
我yhats.mymod是否正确计算了预测值？

Answer 1

mcs*_*ner 0

是的，这看起来是正确的。在每一步中，您都会拟合伪残差，这些残差被计算为损失相对于拟合的导数。你在问题开始时就已经正确地导出了这个梯度，甚至费尽心力去得到正确的因子 2。
这看起来也是正确的。您正在对模型进行聚合，并按学习率进行加权，就像您在训练期间所做的那样。

但为了解决一些没有被问到的问题，我注意到你的训练设置有一些怪癖。

数据iris集平均分为 3 个物种（setosa、versicolor、virginica），并且这些物种在数据中相邻。您的训练数据包含所有 setosa 和 versicolor，而测试集包含所有 virginica 示例。没有重叠，会导致样本外问题。最好平衡您的训练和测试集以避免这种情况。
在我看来，学习率和模型数量的结合太低了。拟合收敛为(1-lr)^n。使用lr = 1e-3和n = 1000只能对 63.2% 的数据量进行建模。也就是说，即使每个模型都正确预测每个样本，您也会估计正确值的 63.2%。用平均值而不是 0 来初始化拟合会有所帮助，因为这样效果是回归平均值而不仅仅是拖累。

归档时间：	5 年，6 月前
查看次数：	369 次
最近记录：	5 年，6 月前