强化学习，摆python

Reinforcement learning, pendulum python

我无法为钟摆问题找到一个好的奖励函数，我正在使用的函数：-x ** 2 + - 0.25 * (xdot ** 2) 这是顶部的二次误差。 x 代表钟摆的当前位置，xdot 代表 angular 速度。

使用此功能需要花费大量时间，有时无法使用。有人有其他建议吗？我一直在寻找 google 但没有找到任何我可以使用的东西

在 this paper 中，作者在具有以下奖励函数的倒立摆的模拟和真实版本中进行了不同的实验：

这里，x是表示当前角度和angular速度的状态向量，u是动作。

实验表明，使用以下算法，奖励函数工作得相当好：SARSA、LSPI、经验回放 SARSA 和经验回放 Q-learning。

但是，请考虑到您的问题可能不（仅）与奖励函数有关，因为收敛速度会受到许多因素的影响，正如@Matheus Portela 在评论中所建议的那样。