机器学习:如果损失停滞在高值,重新训练模型是否更好?

Machine Learning: Is it better to retrain a model if the loss stagnates at a high value?

意思是说如果在训练期间你将学习率设置得太高并且你不幸达到了值太高的局部最小值,以较低的学习率重新训练是好还是你应该从为表现不佳的模型提高学习率,希望损失能够逃脱局部最小值?

从严格意义上讲,您不必重新训练,因为您可以以较低的学习率继续训练(这称为学习计划)。一种非常常见的方法是在每次损失停滞或变得恒定时降低学习率(通常除以 10)。

另一种方法是使用一个优化器,该优化器根据梯度幅度来缩放学习率,因此当您接近最小值时,学习率自然会衰减。这方面的例子是 ADAM、Adagrad 和 RMSProp。

无论如何,请确保在验证集上找到最佳学习率,这将显着提高性能并加快学习速度。这适用于普通 SGD 和任何其他优化器。