Batch Norm 是否需要恒定的批量大小?

Does Batch Norm require constant batch size?

Batch normalization 使用小批量均值和方差对层输出进行归一化。如果我训练一个批量大小为 100 的网络,但随后想将经过训练的网络用于单次预测(批量大小为 1),我是否应该 运行 遇到问题? 我是否应该在学习过程中惩罚批量规范层以收敛到身份转换以避免这种情况?

不,这样做没有问题,在测试时,批量归一化层只是缩放和移动输入,并在训练时学习因素。