Proximal Policy Optimization 中的状态可以包含历史吗?
Can state in Proximal Policy Optimization contain history?
例如,时间步长 t 的状态实际上可以由 t 和 t-1 的状态组成。
S_t = [s_t, s_t-1]
即Proximal Policy Optimization 是否已经合并了状态历史,或者它是否可以隐含在状态中(或两者都不是)。
您可以将您的观察结果串联起来。这是RL很常见的做法。通常在 atari 域中,最后四帧被合并为一个单独的观察。这使得代理可以了解环境的变化。
默认情况下,基本 PPO 算法不会隐式跟踪状态历史记录。你可以通过添加一个循环层来实现这一点。
例如,时间步长 t 的状态实际上可以由 t 和 t-1 的状态组成。
S_t = [s_t, s_t-1]
即Proximal Policy Optimization 是否已经合并了状态历史,或者它是否可以隐含在状态中(或两者都不是)。
您可以将您的观察结果串联起来。这是RL很常见的做法。通常在 atari 域中,最后四帧被合并为一个单独的观察。这使得代理可以了解环境的变化。
默认情况下,基本 PPO 算法不会隐式跟踪状态历史记录。你可以通过添加一个循环层来实现这一点。