为什么同一个数据集使用tensorflow2.0训练准确率和验证准确率不一样?

Why training accuracy and validation accuracy are different for the same dataset with tensorflow2.0?

我正在使用 tensorflow2.0 和 tensorflow_datasets 进行训练。但我不明白:为什么训练精度和损失与验证精度和损失不同?

这是我的代码:

import tensorflow as tf
import tensorflow_datasets as tfds

data_name = 'uc_merced'
dataset = tfds.load(data_name)
# the train_data and the test_data are same dataset
train_data, test_data = dataset['train'], dataset['train'] 

def parse(img_dict):
    img = tf.image.resize_with_pad(img_dict['image'], 256, 256)
    #img = img / 255.
    label = img_dict['label']
    return img, label

train_data = train_data.map(parse)
train_data = train_data.batch(96)

test_data = test_data.map(parse)
test_data = test_data.batch(96)

strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
    model = tf.keras.applications.ResNet50(weights=None, classes=21, 
            input_shape=(256, 256, 3))
    model.compile(optimizer='adam',
            loss='sparse_categorical_crossentropy',
            metrics=['accuracy'])

model.fit(train_data, epochs=50, verbose=2, validation_data=test_data)

它非常简单,您可以 运行 在您的计算机上使用它。你可以看到我的训练数据和验证数据是一样的train_data, test_data = dataset['train'], dataset['train'].

但是训练精度(损失)与验证精度(损失)不同。为什么会这样?这是tensorflow2.0的bug吗?

Epoch 1/50
22/22 - 51s - loss: 3.3766 - accuracy: 0.2581 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/50
22/22 - 30s - loss: 1.8221 - accuracy: 0.4590 - val_loss: 123071.9851 - val_accuracy: 0.0476
Epoch 3/50
22/22 - 30s - loss: 1.4701 - accuracy: 0.5405 - val_loss: 12767.8928 - val_accuracy: 0.0519
Epoch 4/50
22/22 - 30s - loss: 1.2113 - accuracy: 0.6071 - val_loss: 3.9311 - val_accuracy: 0.1186
Epoch 5/50
22/22 - 31s - loss: 1.0846 - accuracy: 0.6567 - val_loss: 23.7775 - val_accuracy: 0.1386
Epoch 6/50
22/22 - 31s - loss: 0.9358 - accuracy: 0.7043 - val_loss: 15.3453 - val_accuracy: 0.1543
Epoch 7/50
22/22 - 32s - loss: 0.8566 - accuracy: 0.7243 - val_loss: 8.0415 - val_accuracy: 0.2548

简而言之,这里的罪魁祸首是 BatchNorm。

由于您的数据集较小,批量较大,因此每个时期仅进行 22 次更新。 BatchNorm 层的默认动量为 0.99,因此需要一些时间将 BatchNorm 运行 means/variances 移动到更适合您的数据集的值(假设您没有将像素值从[0, 255] 范围,与神经网络通常 designed/initialised 期望的典型 mean=0, variance=1 范围相去甚远。

训练与验证之间存在巨大差异的原因 loss/accuracy 是因为批规范的训练行为与测试行为非常不同,尤其是在批次很少的情况下。训练期间通过网络的数据 运行 的均值与迄今为止累积的 运行 均值相差甚远,由于默认的 BatchNorm momentum/decay 为 0.99,因此更新缓慢。

如果将批量大小从 96 减少到,比如说,4,就会大大增加 BatchNorm 运行 means/variances 的更新频率。这样做,加上取消注释数据解析函数中的 #img = img / 255. 行,可以在很大程度上缓解 train/validation 差异。这样做给了我三个时期的输出:

Epoch 1/7
525/525 - 51s - loss: 3.2650 - accuracy: 0.1633 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/7
525/525 - 38s - loss: 2.6455 - accuracy: 0.2152 - val_loss: 12.1067 - val_accuracy: 0.2114
Epoch 3/7
525/525 - 38s - loss: 2.5033 - accuracy: 0.2414 - val_loss: 16.9369 - val_accuracy: 0.2095

您也可以保持代码不变,而是修改 Resnet50 的 keras_applications 实现以在所有地方使用 BatchNormalization(..., momentum=0.9)。这在两个时期后给了我以下输出,我认为这或多或少表明这确实是您问题的主要原因:

Epoch 1/2
22/22 [==============================] - 33s 1s/step - loss: 3.1512 - accuracy: 0.2357 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/2
22/22 [==============================] - 16s 748ms/step - loss: 1.7975 - accuracy: 0.4505 - val_loss: 4.1324 - val_accuracy: 0.2810