在收敛方面比较MSE损失和交叉熵损失

Question

在收敛方面比较MSE损失和交叉熵损失

ce1*_*ce1 1 machine-learning loss mean-square-error logistic-regression cross-entropy

对于一个非常简单的分类问题,我有一个目标向量[0,0,0,... 0]和一个预测向量[0,0.1,0.2,.... 1]会使交叉熵损失更好地收敛/更快还是MSE损失？当我绘制它们时,在我看来,MSE损失具有较低的误差范围.那为什么会这样？

或者,例如当我将目标设为[1,1,1,1 .... 1]时,我得到以下内容:

Answer 1

des*_*aut 6

你听起来有点困惑......

比较MSE和交叉熵损失的值并说一个低于另一个就像比较苹果和橙子
MSE用于回归问题,而交叉熵损失用于分类问题; 这些背景是相互排斥的,因此比较它们相应的损失度量的数值是没有意义的
当您的预测向量类似[0,0.1,0.2,....1](即使用非整数分量)时,正如您所说,问题是回归(而不是分类); 在分类设置中,我们通常使用单热编码的目标向量,其中只有一个组件为1,其余组件为0
目标向量[1,1,1,1....1]可以是回归设置,也可以是多标签多类分类,即输出可能同时属于多个类的情况

除此之外,你的情节选择,以及水平轴上预测的百分比(？)令人费解 - 我从未在ML诊断中看到过这样的情节,我不确定它们到底代表什么或为什么它们可以是有用...

如果您想详细讨论分类设置中的交叉熵损失和准确性,您可以查看我的这个答案.

Answer 2

Mit*_*iku 6

作为对已接受答案的补充，我将回答以下问题

从概率角度对MSE loss和cross entropy loss的解释是什么。
为什么交叉熵用于分类而MSE用于线性回归？

TL;DR如果（随机）目标变量来自高斯分布，则使用 MSE 损失，如果（随机）目标变量来自多项分布，则使用分类交叉熵损失。

MSE（均方误差）

线性回归的假设之一是多变量正态性。由此得出目标变量是正态分布的（更多关于线性回归的假设可以在这里和这里找到）。

高斯分布（正态分布）具有均值的 $\mu$ 和方差 $\sigma^2$ 是（谁）给的
$\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^{2}}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
通常在机器学习中，我们处理均值为 0 和方差为 1 的分布（或者我们将数据转换为均值 0 和方差为 1）。在这种情况下，正态分布将是，
$\mathcal{N}(x|\mu=0,\sigma^2=1)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ 这称为标准正态分布。
对于带权重参数的正态分布模型 $\mathbf{w}$ 和精度（反方差）参数 $\beta$ ，t给定输入观察单个目标的概率x由以下等式表示

$\mathcal{p(t|x,\mathbf{w},\beta)=\mathcal{N}(t|y(x,\mathbf{w}),\beta^{-1})$ ，在哪里 $y(x,\mathbf{w})$ 是分布的平均值，由模型计算为
$y(x,\mathbf{w})=\sum_{i=1}^{m}w_ix^i$

现在目标向量的概率 $\mathbf{t}$ 给定输入 $\mathbf{X}$ 可以表示为

$p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta)=\prod_{n=1}^{N}\mathcal{N}(t_n|y(x_n,\mathbf{w}),\beta^{-1})=$ $\prod_{n=1}^{N}\frac{\beta}{\sqrt{2\pi}}e^{-\beta\frac{(t_n-y(x_n,w))^2}{2}}$
取左右项的自然对数得出

$\ln p(\mathbf{t}|\mathbf{X},\mathbf{w},\beta)=\ln \prod_{n=1}^{N}\frac{\beta}{\sqrt{2\pi}}e^{-\beta\frac{(t_n-y(x_n,w))^2}{2}}$
$=-\frac{\beta}{2}\sum_{n=1}^N\left{y(x_n,w)-t_n\right}^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)=$ $\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t})$
在哪里 $\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t})$ 是正常函数的对数似然。通常训练模型涉及优化似然函数 $\mathbf{w}$ . 现在参数的最大似然函数 $\mathbf{w}$ 由（关于 $\mathbf{w}$ 可以省略),

$\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t})=-\frac{\beta}{2}\sum_{n=1}^N\left{y(x_n,w)-t_n\right}^2$

用于训练模型省略常数 $\frac{-\beta}{2}$ 不影响收敛。 $\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t})=\sum_{n=1}^N\left{y(x_n,w)-t_n\right}^2$ 这称为平方误差，并取mean收益率均方误差。
$\frac{1}{N}\ln L(\mathbf{w},\beta}|\mathbf{X},\mathbf{t})=\frac{1}{N}\sum_{n=1}^N\left{y(x_n,w)-t_n\right}^2$ ,

交叉熵

在进入更一般的交叉熵函数之前，我将解释特定类型的交叉熵 - 二元交叉熵。

二元交叉熵

二元交叉熵的假设是目标变量的概率分布是从伯努利分布中得出的。根据维基百科

伯努利分布是随机变量的离散概率分布，其取值为 1 的概率为 p，取值为 0 的概率为 q=1-p

伯努利分布随机变量的概率由下式给出
$P(Y=k)=p^k(1-p)^{1-k}$ ，在哪里 $k\in\left{0,1\right}$ p 是成功的概率。这可以简单地写为 $P(y)=p^y(1-p)^{1-y}$
两边取负自然对数得

$-\ln P(y)=-y\ln(p)-(1-y)\ln(1-p)$ ，这称为二元交叉熵。

分类交叉熵

当随机变量是多变量（来自多项分布）时，交叉熵的推广遵循一般情况，其概率分布如下

$P(\mathbf{Y})=\prod_{n=1}^{N}p_n^{y_n}(1-p_n)^{1-y_n}={p_n}^{\sum_{n=1}^{N}y_n}(1-p_n)^{n-\sum_{n=1}^{N}y_n}}$

取两边的负自然对数产生分类交叉熵损失。

$-\ln P(y)=-(\sum_{n=1}^{N}y_n\ln(p_n)+(1-y_n)\ln(1-p_n))$ ,

结论

当目标变量来自伯努利分布时使用交叉熵，当目标变量来自正态分布时使用 MSE。

归档时间：	8 年，3 月前
查看次数：	2596 次
最近记录：	7 年，1 月前