为什么使用伪 Huber 损失训练 Xgboost 模型会返回恒定的测试指标？

Question

为什么使用伪 Huber 损失训练 Xgboost 模型会返回恒定的测试指标？

我正在尝试使用本机伪 Huber loss 来拟合 xgboost 模型reg:pseudohubererror。然而，它似乎不起作用，因为训练和测试错误都没有改善。它与一起工作得很好reg:squarederror。我缺少什么？

代码：

library(xgboost)
n = 1000
X = cbind(runif(n,10,20), runif(n,0,10))
y = X %*% c(2,3) + rnorm(n,0,1)

train = xgb.DMatrix(data  = X[-n,],
                    label = y[-n])

test = xgb.DMatrix(data   = t(as.matrix(X[n,])),
                   label = y[n]) 

watchlist = list(train = train, test = test)

xbg_test = xgb.train(data = train, objective = "reg:pseudohubererror", eval_metric = "mae", watchlist = watchlist, gamma = 1, eta = 0.01, nrounds = 10000, early_stopping_rounds = 100)

Run Code Online (Sandbox Code Playgroud)

结果：

[1] train-mae:44.372692 test-mae:33.085709 
Multiple eval metrics are present. Will use test_mae for early stopping.
Will train until test_mae hasn't improved in 100 rounds.

[2] train-mae:44.372692 test-mae:33.085709 
[3] train-mae:44.372688 test-mae:33.085709 
[4] train-mae:44.372688 test-mae:33.085709 
[5] train-mae:44.372688 test-mae:33.085709 
[6] train-mae:44.372688 test-mae:33.085709 
[7] train-mae:44.372688 test-mae:33.085709 
[8] train-mae:44.372688 test-mae:33.085709 
[9] train-mae:44.372688 test-mae:33.085709 
[10]    train-mae:44.372692 test-mae:33.085709

Run Code Online (Sandbox Code Playgroud)

Answer 1

Von*_*ons 2

这似乎是pseudohuber损失的预期行为。在这里，我对此处找到的目标损失函数的一阶和二阶导数进行了硬编码，并通过参数输入它obj=obje。如果你运行它并与objective="reg:pseudohubererror"版本进行比较，你会发现它们是相同的。至于为什么它比平方损失差这么多，不确定。

set.seed(20)

obje=function(pred, dData) {
  labels=getinfo(dData, "label")
  a=pred
  d=labels
  fir=a^2/sqrt(a^2/d^2+1)/d-2*d*(sqrt(a^2/d^2+1)-1)
  sec=((2*(a^2/d^2+1)^(3/2)-2)*d^2-3*a^2)/((a^2/d^2+1)^(3/2)*d^2)
  return (list(grad=fir, hess=sec))
}

xbg_test = xgb.train(data = train, obj=obje, eval_metric = "mae", watchlist = watchlist, gamma = 1, eta = 0.01, nrounds = 10000, early_stopping_rounds = 100)

Run Code Online (Sandbox Code Playgroud)

谢谢！我还尝试使用[此处](/sf/ask/3150443901/)中的 log-cosh 函数作为 MAE 损失近似的替代方法事实上，同样的行为也会出现。至少我知道语法是正确的。我想它在这里不起作用的原因或者对于这种损失的最佳用途是 StackExchange 的问题。 (2认同)

归档时间：	5 年，2 月前
查看次数：	3577 次
最近记录：	4 年，1 月前