强化学习中动作变化的限制

Limit on Action Change in reinforcement learning

我想在虚拟环境中使用 DDPG 建造一艘自主船

但是,问题是转向有一个动作space (-180', +180'),DDPG可以在(t-1)和+选择-180'在 (t+1) 处 180',这在现实世界中是不可能的。 (基本上,你不能把方向盘转那么快。)


我认为可能的解决方案是这样的。

  1. 设置最大转向速率(例如每步 10')

  2. 如果采取的行动超出可用行动范围(current_steeringWheel_angle - 10',current_steeringWheel_angle + 10'),将采取的行动更改为可用行动范围内的结束值

  3. 在虚拟环境中执行更改后的操作。


  4. (第一个选项)用更改后的操作更新 DDPG。
    (第二个选项)用最初采取的行动更新 DDPG。

我想我找到了解决办法。


第一个参考:

(来源:https://stats.stackexchange.com/questions/378008/how-to-handle-a-changing-action-space-in-reinforcement-learning/378025#378025?newreg=09ef385b87a54f27b5011f983dbf0270

第二个参考(基本上和上面说的是一样的):

https://stats.stackexchange.com/questions/328835/enforcing-game-rules-in-alpha-go-zero