强化学习中的 SARSA

SARSA in Reinforcement Learning

我在无模型强化学习中遇到了 SARSA 算法。具体来说,在每个状态下,您将采取一个动作 a,然后观察到一个新状态 s'

我的问题是,如果你没有状态转移概率方程P{next state | current state = s0},你怎么知道你的下一个状态是什么?

我的尝试:你只是简单地尝试那个动作a,然后从环境上观察吗?

通常是的,你在环境中执行动作,环境会告诉你下一个状态是什么。

是的。基于智能体的经验,存储在一个动作值函数中,他的行为策略pi映射当前状态s在一个动作a 导致他进入下一个状态 s',然后进入下一个动作 a'

Fluxogram of state-action pairs sequences.

Q-learning 和 SARSA 中使用了一种称为 TD-Learning 的技术来避免学习转移概率。

简而言之,当您进行采样时,即与系统交互并收集数据样本(状态、动作、奖励、下一个状态、下一个动作)时,在 SARSA 中,当您使用样本来更新模型的参数。例如,每次你在当前状态下选择一个动作,然后你得到一个奖励和新的状态,系统实际上是根据转移概率p(s', r| a , s).

你可以在本书中找到简单的描述,

Artificial Intelligence A Modern Approach