为什么使用 tensorflow2.0 的同一数据集的训练准确度和验证准确度不同?

tid*_*idy 3 keras tensorflow tensorflow-datasets tf.keras tensorflow2.0

我正在使用 tensorflow2.0 和 tensorflow_datasets 进行训练。但我不明白:为什么训练准确度和损失与验证准确度和损失不同?

这是我的代码:

import tensorflow as tf
import tensorflow_datasets as tfds

data_name = 'uc_merced'
dataset = tfds.load(data_name)
# the train_data and the test_data are same dataset
train_data, test_data = dataset['train'], dataset['train'] 

def parse(img_dict):
    img = tf.image.resize_with_pad(img_dict['image'], 256, 256)
    #img = img / 255.
    label = img_dict['label']
    return img, label

train_data = train_data.map(parse)
train_data = train_data.batch(96)

test_data = test_data.map(parse)
test_data = test_data.batch(96)

strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
    model = tf.keras.applications.ResNet50(weights=None, classes=21, 
            input_shape=(256, 256, 3))
    model.compile(optimizer='adam',
            loss='sparse_categorical_crossentropy',
            metrics=['accuracy'])

model.fit(train_data, epochs=50, verbose=2, validation_data=test_data)
Run Code Online (Sandbox Code Playgroud)

它非常简单,您可以在计算机上运行它。你可以看到我的训练数据和验证数据是一样的train_data, test_data = dataset['train'], dataset['train']

但是训练准确度(损失)与验证准确度(损失)不同。为什么会发生?这是tensorflow2.0的bug吗?

Epoch 1/50
22/22 - 51s - loss: 3.3766 - accuracy: 0.2581 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/50
22/22 - 30s - loss: 1.8221 - accuracy: 0.4590 - val_loss: 123071.9851 - val_accuracy: 0.0476
Epoch 3/50
22/22 - 30s - loss: 1.4701 - accuracy: 0.5405 - val_loss: 12767.8928 - val_accuracy: 0.0519
Epoch 4/50
22/22 - 30s - loss: 1.2113 - accuracy: 0.6071 - val_loss: 3.9311 - val_accuracy: 0.1186
Epoch 5/50
22/22 - 31s - loss: 1.0846 - accuracy: 0.6567 - val_loss: 23.7775 - val_accuracy: 0.1386
Epoch 6/50
22/22 - 31s - loss: 0.9358 - accuracy: 0.7043 - val_loss: 15.3453 - val_accuracy: 0.1543
Epoch 7/50
22/22 - 32s - loss: 0.8566 - accuracy: 0.7243 - val_loss: 8.0415 - val_accuracy: 0.2548
Run Code Online (Sandbox Code Playgroud)

nlm*_*lml 6

简而言之,这里的罪魁祸首是 BatchNorm。

由于您有一个小数据集和大批量,因此每个 epoch 只进行 22 次更新。BatchNorm 层的默认动量为 0.99,因此将 BatchNorm 运行均值/方差移动到更适合您的数据集的值需要一些时间(假设您没有将像素值标准化为远离 [0, 255] 范围,mean=0, variance=1与神经网络通常设计/初始化预期的典型范围相去甚远)。

训练与验证损失/准确度之间存在巨大差异的原因是因为批次规范的训练行为与测试行为非常不同,尤其是在批次如此之少的情况下。训练期间通过网络运行的数据的均值与迄今为止累积的运行均值相差甚远,由于默认的 BatchNorm 动量/衰减为 0.99,因此只会缓慢更新。

如果您将批量大小从 96 减少到 4,则您会显着增加 BatchNorm 运行均值/方差的更新频率。这样做,再加上#img = img / 255.在数据解析函数中取消注释该行,可以在很大程度上缓解训练/验证差异。这样做为我提供了三个时期的输出:

Epoch 1/7
525/525 - 51s - loss: 3.2650 - accuracy: 0.1633 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/7
525/525 - 38s - loss: 2.6455 - accuracy: 0.2152 - val_loss: 12.1067 - val_accuracy: 0.2114
Epoch 3/7
525/525 - 38s - loss: 2.5033 - accuracy: 0.2414 - val_loss: 16.9369 - val_accuracy: 0.2095
Run Code Online (Sandbox Code Playgroud)

您也可以保持代码不变,而是修改keras_applicationsResnet50的实现以BatchNormalization(..., momentum=0.9)在任何地方使用。这在两个时期后为我提供了以下输出,我认为这或多或少表明这确实是您问题的主要原因:

Epoch 1/2
22/22 [==============================] - 33s 1s/step - loss: 3.1512 - accuracy: 0.2357 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/2
22/22 [==============================] - 16s 748ms/step - loss: 1.7975 - accuracy: 0.4505 - val_loss: 4.1324 - val_accuracy: 0.2810
Run Code Online (Sandbox Code Playgroud)