什么是体重衰减损失?

Abh*_*agi 0 machine-learning linear-algebra deep-learning tensorflow

我最近开始使用ML和TensorFlow.在浏览网站上的CIFAR10教程时,我遇到了一段对我来说有点混乱的段落:

训练网络执行N路分类的常用方法是多项逻辑回归,也就是说.softmax回归.Softmax回归将softmax非线性应用于网络的输出,并计算标准化预测与标签的1-hot编码之间的交叉熵.对于正规化,我们还将通常的重量衰减损失应用于所有学习变量.模型的目标函数是交叉熵损失和所有这些权重衰减项的总和,由loss()函数返回.

我已经阅读了关于论坛上什么是重量衰减的几个答案,我可以说它用于正规化的目的,因此可以计算权重值以获得最小损失和更高的准确度.

现在在上面的文本中,我理解它loss()是由交叉熵损失(这是预测和正确标签值的差异)和重量衰减损失组成的.

我很清楚交叉熵损失但是这个重量衰减损失是什么,为什么不仅仅是重量衰减?这个损失是如何计算的?

vij*_*y m 6

Weight decay只不过L2 regularisation是权重,可以使用tf.nn.l2_loss.

正则化的损失函数由下式给出:

在此输入图像描述

上述等式的第二项定义L2-regularization了权重(theta).通常添加它以避免过度拟合.这会惩罚峰值权重并确保考虑所有输入.(很少有峰值权重意味着只有那些与之相关的输入被考虑用于决策.)

在梯度下降参数更新期间,上述L2正则化最终意味着每个权重都线性衰减:W_new = (1 - lambda)* W_old + alpha*delta_J/delta_w.这就是为什么它通常被称为Weight decay.