Proximal Policy Optimization 中的状态可以包含历史吗？

Question

例如，时间步长 t 的状态实际上可以由 t 和 t-1 的状态组成。

S_t = [s_t, s_t-1]

即Proximal Policy Optimization 是否已经合并了状态历史，或者它是否可以隐含在状态中（或两者都不是）。

Answer 1

您可以将您的观察结果串联起来。这是RL很常见的做法。通常在 atari 域中，最后四帧被合并为一个单独的观察。这使得代理可以了解环境的变化。

默认情况下，基本 PPO 算法不会隐式跟踪状态历史记录。你可以通过添加一个循环层来实现这一点。

Can state in Proximal Policy Optimization contain history?