使用 DQN 时在 epsilon-greedy 策略中退火 epsilon
Annealing epsilon in epsilon-greedy policy when using DQN
在使用DQN时,有人告诉我最好在学习之前填满整个回放内存。我想知道如果我使用 epsilon-greedy 策略如何退火 epsilon。假设回放内存大小为 10000,那么代理在学习之前应该 运行 10000 步。我应该在 10000 步或学习开始后开始退火 epsilon 吗?提前致谢。
在 epsilon-greedy 策略中逐渐减少 epsilon 参数的目标是从更具探索性的策略转变为更具剥削性的策略。这一步只有在代理学习了一些东西时才有意义,即当它有一些知识可以利用时。
所以,总之,你应该在学习开始后开始退火。
在使用DQN时,有人告诉我最好在学习之前填满整个回放内存。我想知道如果我使用 epsilon-greedy 策略如何退火 epsilon。假设回放内存大小为 10000,那么代理在学习之前应该 运行 10000 步。我应该在 10000 步或学习开始后开始退火 epsilon 吗?提前致谢。
在 epsilon-greedy 策略中逐渐减少 epsilon 参数的目标是从更具探索性的策略转变为更具剥削性的策略。这一步只有在代理学习了一些东西时才有意义,即当它有一些知识可以利用时。
所以,总之,你应该在学习开始后开始退火。