目标批评家初始化不佳
Poorly initialized target critic
用 Deep Deterministic Policy Gradients 处理第一轮关闭策略训练的好方法是什么?
这是我的问题:我用 Xavier Initialization 初始化所有权重,用零初始化偏差。但是,在计算评论家损失时,我得到了无限的 MSE,因为 Q_target
和 Q_eval
之间的差异太大了。将其剪裁成一个非常大的值是不是一个坏主意?
Q_target_i = r_i + discount * Q_target(i+1)
critic_loss = MSE(Q_target_i, Q_eval_i)
我通过将评估网络初始化为与目标网络相同来解决这个问题。
用 Deep Deterministic Policy Gradients 处理第一轮关闭策略训练的好方法是什么?
这是我的问题:我用 Xavier Initialization 初始化所有权重,用零初始化偏差。但是,在计算评论家损失时,我得到了无限的 MSE,因为 Q_target
和 Q_eval
之间的差异太大了。将其剪裁成一个非常大的值是不是一个坏主意?
Q_target_i = r_i + discount * Q_target(i+1)
critic_loss = MSE(Q_target_i, Q_eval_i)
我通过将评估网络初始化为与目标网络相同来解决这个问题。