为什么小权重对深度神经网络（正则化）有帮助

Why are small weights helpful in Deep Neural Networks(Regularisation)

我研究神经网络很长时间了，实际上我被困在这个叫做正则化的话题上。我学习了 L1、L2 正则化技术，这些技术的主要目的是使权重尽可能小。但我仍然不明白为什么这很有用。我实际上是在关注这本书- http://neuralnetworksanddeeplearning.com/chap3.html

这不是从理论方面而是从实践方面都有帮助。

神经网络的权重通常存储为 16 位或 32 位浮点数。对于深度神经网络，如果你不在反向传播中添加正则化项，它们的权重将增加超过浮点数可以很好地表示的值（到无穷大）或者变得太小以至于它们都表示为零，并且神经网络将不再起作用。

这就是所谓的梯度消失或爆炸问题。将权重的总和添加到成本函数可以让我们在优化损失函数的同时保持权重的实用性。