cs231n lec 14 强化学习

cs231n lec 14 reinforcement learning

我正在学习 CS231N,第 14 课,“强化学习”。讲课中讲师提到了价值函数,如图:

我想知道 rts0 之间的栏是什么?我认为这类似于条件概率,但我不确定。还是只是一个部门?

这是条件概率。它的字面意思是在时间 t、给定状态 s、遵循策略 pi.

时的奖励