测试/验证集中的数据增加?

rod*_*ira 8 machine-learning deep-learning

通常的做法是,以增加在两个训练和测试集,或者只是在训练数据集的数据(添加样品编程,诸如随机作物等在由图像数据集的情况下)?

小智 7

我认为,在某些情况下,对验证集使用数据增强可能会有所帮助。

例如,我训练了很多用于医学图像分割的 CNN。我使用的许多增强变换都是为了降低图像质量,以便训练网络对此类数据具有鲁棒性。如果训练集看起来很糟糕而验证集看起来不错,则很难比较训练期间的损失,因此评估过度拟合将会很复杂。

我永远不会对测试集使用增强,除非我使用测试时间增强来改进结果或估计任意不确定性


And*_*nko 6

仅在训练上。数据增强用于增加训练集的大小并获得更多不同的图像。从技术上讲,您可以在测试集上使用数据增强来查看模型在此类图像上的行为,但通常人们不这样做。

  • 实际上情况已经改变了一点……有一种新方法:测试时间增加。这意味着当图像中的对象太小时,可以使用增强测试数据来改进预测。这是一篇带说明的文章:https://towardsdatascience.com/augmentation-for-image-classification-24ffcbc38833 (5认同)
  • 测试集或验证集没有增加的任何原因? (4认同)

Tom*_*ale 6

stats.SE 上的这个答案为在验证/测试集上应用作物提供了理由,以便使该输入与训练网络的训练集中的输入相似。


小智 5

数据增强仅在训练集上完成,因为它有助于模型变得更加泛化和健壮。所以没有必要增加测试集。


Mar*_*oma 5

仅在训练集上执行此操作。当然,请确保增强不会使标签错误(例如,将 6 和 9 旋转约 180\xc2\xb0 时)。

\n\n

我们首先使用训练集和测试集的原因是我们想要估计我们的系统在现实中会出现的错误。因此测试集的数据应该尽可能接近真实数据。

\n\n

如果您在测试集上执行此操作,则可能会遇到引入错误的问题。例如,假设您想识别数字并通过旋转来增强。那么 a6可能看起来像 a 9。但并非所有例子都那么简单。最好是保存而不是后悔。

\n