测试/验证集中的数据增加？

Question

通常的做法是,以增加在两个训练和测试集,或者只是在训练数据集的数据(添加样品编程,诸如随机作物等在由图像数据集的情况下)？

Answer 1

我认为，在某些情况下，对验证集使用数据增强可能会有所帮助。

例如，我训练了很多用于医学图像分割的 CNN。我使用的许多增强变换都是为了降低图像质量，以便训练网络对此类数据具有鲁棒性。如果训练集看起来很糟糕而验证集看起来不错，则很难比较训练期间的损失，因此评估过度拟合将会很复杂。

我永远不会对测试集使用增强，除非我使用测试时间增强来改进结果或估计任意不确定性。

Answer 2

仅在训练上。数据增强用于增加训练集的大小并获得更多不同的图像。从技术上讲，您可以在测试集上使用数据增强来查看模型在此类图像上的行为，但通常人们不这样做。

实际上情况已经改变了一点……有一种新方法：测试时间增加。这意味着当图像中的对象太小时，可以使用增强测试数据来改进预测。这是一篇带说明的文章：https://towardsdatascience.com/augmentation-for-image-classification-24ffcbc38833 (5认同)
测试集或验证集没有增加的任何原因？ (4认同)