文本二元分类训练期间的波动损失

Question

我做了的细化和微调Longformer在文档中的文本二元分类任务使用Huggingface教练班，我监视一些检查站与Tensorboard的措施。

即使 F1 分数和准确率都相当高，但我对训练损失的波动感到困惑。

我在网上阅读的原因可能是：

的过高的学习速率，但我试图与3个值（1E-4，1E-5和1E-6）和它们全部由相同的效果
一个小批量的大小。我正在使用具有 8xK80 GPU的Sagemaker 笔记本 p2.8xlarge。我可以用来避免CUDA 内存不足错误的每个 GPU 的批量大小为 1。所以总批量大小为8。我的直觉是 bs 为 8 对于包含 57K 个示例（每个 epoch 7K 步）的数据集来说太小了。不幸的是，这是我可以使用的最高值。

这里我已经报告了 F1、准确率、损失和平滑损失的趋势。灰线是 1e-6 的学习率，而粉红色的是 1e-5。

我恢复了我训练的所有信息：

这可能是什么原因？尽管 F1 和准确度结果相当不错，但这可以被视为问题吗？

Answer 1

我先告诉你波动的原因，然后告诉你可能的解决方法。

原因

当你训练网络时，你会计算一个可以减少损失的梯度。为此，您需要反向传播损失。现在，理想情况下，您可以根据数据中的所有样本计算损失，因为这样您基本上会考虑每个样本，并得出一个可以捕获所有样本的梯度。实际上，由于计算所有样本的梯度的计算复杂性，这是不可能的。

因此，我们使用小batch_size作为近似值！这个想法是不是考虑所有样本，我们说我基于一些小样本集计算梯度，但作为权衡，我丢失了有关梯度的信息。

经验法则：较小的批量大小会产生嘈杂的梯度，但它们收敛得更快，因为每个时期都有更多的更新。如果您的批量大小为 1，则每个时期将有 N 次更新。如果是 N，则每个 epoch 只会有 1 次更新。另一方面，较大的批量大小会提供更多信息的梯度，但它们收敛速度较慢并增加计算复杂性。

这就是为什么对于较小的批量大小，您会观察到不同的损失/波动，因为梯度有噪声。

解决方案：累积梯度

如果出现内存问题，您可以使用累积梯度的概念来对抗波动损失。它在每个小批量之后计算损失和梯度，但不是更新每个批次的权重，而是等待并累积连续批次的梯度。然后最终在指定数量的批次后根据累积梯度更新参数。

在此文档页面上，您可以找到如何应用它：https://huggingface.co/transformers/v1.2.0/examples.html