我应该如何理解张量流对象检测中的热身学习率 api？

How should I understand warmup learning rate in tensorflow object detection api?

你能解释一下它在训练过程中是如何工作的吗？

learning_rate: {
        cosine_decay_learning_rate {
          learning_rate_base: 8e-2
          total_steps: 300000
          warmup_learning_rate: .0001
          warmup_steps: 400
        }
      }```

回答我自己的问题 :) 使用上面的设置，训练从 lr=0.0001 开始，在 400 个 epochs (warmup_steps) 结束时达到 0.08。直到第400个epoch lr线性递增。

为什么要随着时间的推移提高学习率？如果我没记错的话，最好先有一个学习率，然后当我们达到最佳值时，它应该越来越小，因为我们不想越过最佳值。