ce1*_*ce1 1 machine-learning loss mean-square-error logistic-regression cross-entropy
对于一个非常简单的分类问题,我有一个目标向量[0,0,0,... 0]和一个预测向量[0,0.1,0.2,.... 1]会使交叉熵损失更好地收敛/更快还是MSE损失?当我绘制它们时,在我看来,MSE损失具有较低的误差范围.那为什么会这样?

你听起来有点困惑......
[0,0.1,0.2,....1](即使用非整数分量)时,正如您所说,问题是回归(而不是分类); 在分类设置中,我们通常使用单热编码的目标向量,其中只有一个组件为1,其余组件为0[1,1,1,1....1]可以是回归设置,也可以是多标签多类分类,即输出可能同时属于多个类的情况除此之外,你的情节选择,以及水平轴上预测的百分比(?)令人费解 - 我从未在ML诊断中看到过这样的情节,我不确定它们到底代表什么或为什么它们可以是有用...
如果您想详细讨论分类设置中的交叉熵损失和准确性,您可以查看我的这个答案.
作为对已接受答案的补充,我将回答以下问题
TL;DR如果(随机)目标变量来自高斯分布,则使用 MSE 损失,如果(随机)目标变量来自多项分布,则使用分类交叉熵损失。
线性回归的假设之一是多变量正态性。由此得出目标变量是正态分布的(更多关于线性回归的假设可以在这里和这里找到)。
高斯分布(正态分布) 具有均值的 和方差
是(谁)给的
通常在机器学习中,我们处理均值为 0 和方差为 1 的分布(或者我们将数据转换为均值 0 和方差为 1)。在这种情况下,正态分布将是,
这称为标准正态分布。
对于带权重参数的正态分布模型 和精度(反方差)参数
,
t给定输入观察单个目标的概率x由以下等式表示
, 在哪里
是分布的平均值,由模型计算为
现在目标向量的概率 给定输入
可以表示为
取左右项的自然对数得出
在哪里 是正常函数的对数似然。通常训练模型涉及优化似然函数
. 现在参数的最大似然函数
由(关于
可以省略),
用于训练模型省略常数 不影响收敛。
这称为平方误差,并取
mean收益率均方误差。
,
在进入更一般的交叉熵函数之前,我将解释特定类型的交叉熵 - 二元交叉熵。
二元交叉熵的假设是目标变量的概率分布是从伯努利分布中得出的。根据维基百科
伯努利分布是随机变量的离散概率分布,其取值为 1 的概率为 p,取值为 0 的概率为 q=1-p
伯努利分布随机变量的概率由下式给出
, 在哪里
p 是成功的概率。这可以简单地写为
两边取负自然对数得
,这称为二元交叉熵。
当随机变量是多变量(来自多项分布)时,交叉熵的推广遵循一般情况,其概率分布如下
取两边的负自然对数产生分类交叉熵损失。
,
当目标变量来自伯努利分布时使用交叉熵,当目标变量来自正态分布时使用 MSE。
| 归档时间: |
|
| 查看次数: |
2596 次 |
| 最近记录: |