强化学习中动作变化的限制
Limit on Action Change in reinforcement learning
我想在虚拟环境中使用 DDPG 建造一艘自主船。
但是,问题是转向有一个动作space (-180', +180'),DDPG可以在(t-1)和+选择-180'在 (t+1) 处 180',这在现实世界中是不可能的。 (基本上,你不能把方向盘转那么快。)
我认为可能的解决方案是这样的。
- 设置最大转向速率(例如每步 10')
- 如果采取的行动超出可用行动范围(current_steeringWheel_angle - 10',current_steeringWheel_angle + 10'),将采取的行动更改为可用行动范围内的结束值
- 在虚拟环境中执行更改后的操作。
(第一个选项)用更改后的操作更新 DDPG。
(第二个选项)用最初采取的行动更新 DDPG。
我想在虚拟环境中使用 DDPG 建造一艘自主船。
但是,问题是转向有一个动作space (-180', +180'),DDPG可以在(t-1)和+选择-180'在 (t+1) 处 180',这在现实世界中是不可能的。 (基本上,你不能把方向盘转那么快。)
我认为可能的解决方案是这样的。
- 设置最大转向速率(例如每步 10')
- 如果采取的行动超出可用行动范围(current_steeringWheel_angle - 10',current_steeringWheel_angle + 10'),将采取的行动更改为可用行动范围内的结束值
- 在虚拟环境中执行更改后的操作。
(第一个选项)用更改后的操作更新 DDPG。
(第二个选项)用最初采取的行动更新 DDPG。