cs231n lec 14 强化学习
cs231n lec 14 reinforcement learning
我正在学习 CS231N,第 14 课,“强化学习”。讲课中讲师提到了价值函数,如图:
我想知道 rt
和 s0
之间的栏是什么?我认为这类似于条件概率,但我不确定。还是只是一个部门?
这是条件概率。它的字面意思是在时间 t
、给定状态 s
、遵循策略 pi
.
时的奖励
我正在学习 CS231N,第 14 课,“强化学习”。讲课中讲师提到了价值函数,如图:
我想知道 rt
和 s0
之间的栏是什么?我认为这类似于条件概率,但我不确定。还是只是一个部门?
这是条件概率。它的字面意思是在时间 t
、给定状态 s
、遵循策略 pi
.