学习率对神经网络的影响
Effect of learning rate on the neural network
我有一个包含大约 100 个数值的数据集。我已将神经网络的学习率设置为 0.0001。我已经在数据集上成功训练了超过 100 万次。但我的问题是,神经网络中非常低的学习率会产生什么影响?
学习率低主要意味着收敛速度慢:您正在以较小的步长(步长是学习率)向下移动损失函数。
如果你的函数是凸的,这不是问题,你会等待更多,但你会找到一个好的解决方案。
如果在深度神经网络的情况下,您的函数不是凸函数,那么低学习率可能会导致达到 "good" 最优值,而这不是最好的(陷入局部最低限度,无需跳出所需的大步)。
这就是为什么存在不同的自适应优化算法的原因:此类算法,如 ADAM、RMSProp 等,对于网络中的每个权重(每个单独的权重)都有不同的学习率学习率从相同的值开始)。这样,优化算法可以独立地处理每个参数,以找到更好的解决方案(并让初始学习率的选择不那么关键)
我有一个包含大约 100 个数值的数据集。我已将神经网络的学习率设置为 0.0001。我已经在数据集上成功训练了超过 100 万次。但我的问题是,神经网络中非常低的学习率会产生什么影响?
学习率低主要意味着收敛速度慢:您正在以较小的步长(步长是学习率)向下移动损失函数。 如果你的函数是凸的,这不是问题,你会等待更多,但你会找到一个好的解决方案。
如果在深度神经网络的情况下,您的函数不是凸函数,那么低学习率可能会导致达到 "good" 最优值,而这不是最好的(陷入局部最低限度,无需跳出所需的大步)。
这就是为什么存在不同的自适应优化算法的原因:此类算法,如 ADAM、RMSProp 等,对于网络中的每个权重(每个单独的权重)都有不同的学习率学习率从相同的值开始)。这样,优化算法可以独立地处理每个参数,以找到更好的解决方案(并让初始学习率的选择不那么关键)