强化学习中动作变化的限制

Limit on Action Change in reinforcement learning

reinforcement-learning

我想在虚拟环境中使用 DDPG 建造一艘自主船。

但是，问题是转向有一个动作space (-180', +180')，DDPG可以在(t-1)和+选择-180'在 (t+1) 处 180'，这在现实世界中是不可能的。（基本上，你不能把方向盘转那么快。）

我认为可能的解决方案是这样的。

设置最大转向速率（例如每步 10'）
如果采取的行动超出可用行动范围（current_steeringWheel_angle - 10'，current_steeringWheel_angle + 10'），将采取的行动更改为可用行动范围内的结束值
在虚拟环境中执行更改后的操作。
（第一个选项）用更改后的操作更新 DDPG。
（第二个选项）用最初采取的行动更新 DDPG。

我想我找到了解决办法。

第一个参考：

（来源：https://stats.stackexchange.com/questions/378008/how-to-handle-a-changing-action-space-in-reinforcement-learning/378025#378025?newreg=09ef385b87a54f27b5011f983dbf0270）

第二个参考（基本上和上面说的是一样的）：

https://stats.stackexchange.com/questions/328835/enforcing-game-rules-in-alpha-go-zero