目标批评家初始化不佳

Poorly initialized target critic

用 Deep Deterministic Policy Gradients 处理第一轮关闭策略训练的好方法是什么？

这是我的问题：我用 Xavier Initialization 初始化所有权重，用零初始化偏差。但是，在计算评论家损失时，我得到了无限的 MSE，因为 Q_target 和 Q_eval 之间的差异太大了。将其剪裁成一个非常大的值是不是一个坏主意？

Q_target_i = r_i + discount * Q_target(i+1)
critic_loss = MSE(Q_target_i, Q_eval_i)

我通过将评估网络初始化为与目标网络相同来解决这个问题。