为什么同一个数据集使用tensorflow2.0训练准确率和验证准确率不一样？

Question

我正在使用 tensorflow2.0 和 tensorflow_datasets 进行训练。但我不明白：为什么训练精度和损失与验证精度和损失不同？

这是我的代码：

import tensorflow as tf
import tensorflow_datasets as tfds

data_name = 'uc_merced'
dataset = tfds.load(data_name)
# the train_data and the test_data are same dataset
train_data, test_data = dataset['train'], dataset['train'] 

def parse(img_dict):
    img = tf.image.resize_with_pad(img_dict['image'], 256, 256)
    #img = img / 255.
    label = img_dict['label']
    return img, label

train_data = train_data.map(parse)
train_data = train_data.batch(96)

test_data = test_data.map(parse)
test_data = test_data.batch(96)

strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
    model = tf.keras.applications.ResNet50(weights=None, classes=21, 
            input_shape=(256, 256, 3))
    model.compile(optimizer='adam',
            loss='sparse_categorical_crossentropy',
            metrics=['accuracy'])

model.fit(train_data, epochs=50, verbose=2, validation_data=test_data)

它非常简单，您可以运行在您的计算机上使用它。你可以看到我的训练数据和验证数据是一样的train_data, test_data = dataset['train'], dataset['train'].

但是训练精度（损失）与验证精度（损失）不同。为什么会这样？这是tensorflow2.0的bug吗？

Epoch 1/50
22/22 - 51s - loss: 3.3766 - accuracy: 0.2581 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/50
22/22 - 30s - loss: 1.8221 - accuracy: 0.4590 - val_loss: 123071.9851 - val_accuracy: 0.0476
Epoch 3/50
22/22 - 30s - loss: 1.4701 - accuracy: 0.5405 - val_loss: 12767.8928 - val_accuracy: 0.0519
Epoch 4/50
22/22 - 30s - loss: 1.2113 - accuracy: 0.6071 - val_loss: 3.9311 - val_accuracy: 0.1186
Epoch 5/50
22/22 - 31s - loss: 1.0846 - accuracy: 0.6567 - val_loss: 23.7775 - val_accuracy: 0.1386
Epoch 6/50
22/22 - 31s - loss: 0.9358 - accuracy: 0.7043 - val_loss: 15.3453 - val_accuracy: 0.1543
Epoch 7/50
22/22 - 32s - loss: 0.8566 - accuracy: 0.7243 - val_loss: 8.0415 - val_accuracy: 0.2548

Answer 1

简而言之，这里的罪魁祸首是 BatchNorm。

由于您的数据集较小，批量较大，因此每个时期仅进行 22 次更新。 BatchNorm 层的默认动量为 0.99，因此需要一些时间将 BatchNorm 运行 means/variances 移动到更适合您的数据集的值（假设您没有将像素值从[0, 255] 范围，与神经网络通常 designed/initialised 期望的典型 mean=0, variance=1 范围相去甚远。

训练与验证之间存在巨大差异的原因 loss/accuracy 是因为批规范的训练行为与测试行为非常不同，尤其是在批次很少的情况下。训练期间通过网络的数据运行的均值与迄今为止累积的运行均值相差甚远，由于默认的 BatchNorm momentum/decay 为 0.99，因此更新缓慢。

如果将批量大小从 96 减少到，比如说，4，就会大大增加 BatchNorm 运行 means/variances 的更新频率。这样做，加上取消注释数据解析函数中的 #img = img / 255. 行，可以在很大程度上缓解 train/validation 差异。这样做给了我三个时期的输出：

Epoch 1/7
525/525 - 51s - loss: 3.2650 - accuracy: 0.1633 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/7
525/525 - 38s - loss: 2.6455 - accuracy: 0.2152 - val_loss: 12.1067 - val_accuracy: 0.2114
Epoch 3/7
525/525 - 38s - loss: 2.5033 - accuracy: 0.2414 - val_loss: 16.9369 - val_accuracy: 0.2095

您也可以保持代码不变，而是修改 Resnet50 的 keras_applications 实现以在所有地方使用 BatchNormalization(..., momentum=0.9)。这在两个时期后给了我以下输出，我认为这或多或少表明这确实是您问题的主要原因：

Epoch 1/2
22/22 [==============================] - 33s 1s/step - loss: 3.1512 - accuracy: 0.2357 - val_loss: 0.0000e+00 - val_accuracy: 0.0000e+00
Epoch 2/2
22/22 [==============================] - 16s 748ms/step - loss: 1.7975 - accuracy: 0.4505 - val_loss: 4.1324 - val_accuracy: 0.2810

为什么同一个数据集使用tensorflow2.0训练准确率和验证准确率不一样？

Why training accuracy and validation accuracy are different for the same dataset with tensorflow2.0?

keras

tensorflow

tensorflow-datasets

tf.keras

tensorflow2.0