Deep Q-Learning Agent 性能在一定数量的 epoch 后下降
Deep Q-Learning Agent performance degrades after a certain number of epochs
我有一个 DQN 代理,它在特定网络上接受训练以执行任务。然而,在训练代理时,我注意到在代理显示任务得分普遍增长的初始时期数之后,代理的性能突然急剧下降,就好像它是重新开始一样。这种情况发生了很多次。
我的代理显示性能从坏到好等波动。这对 DQN 代理来说是否正常。我应该执行什么诊断来消除这种波动?我已经为代理使用了经验重播和探索开发。我是这个领域的新手,所以这个问题可能很微不足道。
在达到最佳水平之前,这些波动是正常的。在大多数强化实验和论文中,结果以 window size of 15-30
的加权平均值表示。这是我的dqn
实施图。
我有一个 DQN 代理,它在特定网络上接受训练以执行任务。然而,在训练代理时,我注意到在代理显示任务得分普遍增长的初始时期数之后,代理的性能突然急剧下降,就好像它是重新开始一样。这种情况发生了很多次。
我的代理显示性能从坏到好等波动。这对 DQN 代理来说是否正常。我应该执行什么诊断来消除这种波动?我已经为代理使用了经验重播和探索开发。我是这个领域的新手,所以这个问题可能很微不足道。
在达到最佳水平之前,这些波动是正常的。在大多数强化实验和论文中,结果以 window size of 15-30
的加权平均值表示。这是我的dqn
实施图。