目标批评家初始化不佳

Poorly initialized target critic

用 Deep Deterministic Policy Gradients 处理第一轮关闭策略训练的好方法是什么?

这是我的问题:我用 Xavier Initialization 初始化所有权重,用零初始化偏差。但是,在计算评论家损失时,我得到了无限的 MSE,因为 Q_targetQ_eval 之间的差异太大了。将其剪裁成一个非常大的值是不是一个坏主意?

Q_target_i = r_i + discount * Q_target(i+1)
critic_loss = MSE(Q_target_i, Q_eval_i)

我通过将评估网络初始化为与目标网络相同来解决这个问题。