如何在 LightGBM 中实现与二进制目标相同行为的自定义 logloss？

Question

如何在 LightGBM 中实现与二进制目标相同行为的自定义 logloss？

我正在尝试为二进制分类实现我自己的损失函数。首先，我想重现二进制目标的确切行为。特别是，我希望：

两个函数的损失具有相同的规模
训练和验证斜率相似
predict_proba(X) 返回概率

下面的代码不是这种情况：

import sklearn.datasets
import lightgbm as lgb
import numpy as np

X, y = sklearn.datasets.load_iris(return_X_y=True)
X, y = X[y <= 1], y[y <= 1]

def loglikelihood(labels, preds):
    preds = 1. / (1. + np.exp(-preds))
    grad = preds - labels
    hess = preds * (1. - preds)
    return grad, hess

model = lgb.LGBMClassifier(objective=loglikelihood)  # or "binary"
model.fit(X, y, eval_set=[(X, y)], eval_metric="binary_logloss")
lgb.plot_metric(model.evals_result_)

Run Code Online (Sandbox Code Playgroud)

目标=“二进制”：

使用objective=loglikelihood，斜率甚至不平滑：

此外，必须将 sigmoid 应用于 model.predict_proba(X) 以获得对数似然的概率（正如我从https://github.com/Microsoft/LightGBM/issues/2136 中发现的那样）。

是否可以使用自定义损失函数获得相同的行为？有人了解所有这些差异的来源吗？

Answer 1

Vik*_*ova 6

查看model.predict_proba(X)每种情况下的输出，我们可以看到内置的 binary_logloss 模型返回概率，而自定义模型返回 logits。

内置的评估函数将概率作为输入。为了适应自定义目标，我们需要一个自定义评估函数，它将 logits 作为输入。

这是你如何写这个。我已经更改了 sigmoid 计算，以便在 logit 是一个很大的负数时它不会溢出。

def loglikelihood(labels, logits):
    #numerically stable sigmoid:
    preds = np.where(logits >= 0,
                 1. / (1. + np.exp(-logits)),
                 np.exp(logits) / (1. + np.exp(logits)))
    grad = preds - labels
    hess = preds * (1. - preds)
    return grad, hess

def my_eval(labels, logits):
    #numerically stable logsigmoid:
    logsigmoid = np.where(logits >= 0, 
                          -np.log(1 + np.exp(-logits)),
                          logits - np.log(1 + np.exp(logits)))
    loss = (-logsigmoid + logits * (1 - labels)).mean()
    return "error", loss, False

    
    model1 = lgb.LGBMClassifier(objective='binary')
    model1.fit(X, y, eval_set=[(X, y)], eval_metric="binary_logloss")
    model2 = lgb.LGBMClassifier(objective=loglikelihood)
    model2.fit(X, y, eval_set=[(X, y)], eval_metric=my_eval)

Run Code Online (Sandbox Code Playgroud)

现在结果是一样的。

归档时间：	6 年，4 月前
查看次数：	740 次
最近记录：	5 年，3 月前