MDP 的整形定理
Shaping theorem for MDPs
我需要帮助来理解 MDP 的整形定理。这是相关论文:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf 它基本上说一个马尔可夫决策过程在状态和动作 R(s, a, s') 之间的转换上具有一些奖励函数,具有与不同马尔可夫决策过程相同的最优策略它的奖励定义为 R'(s, a, s') = R(s, a, s') + gamma*f(s') - f(s),其中 gamma 是时间折扣率。
我理解这个证明,但它似乎是一个微不足道的案例,当所有状态和动作的 R(s, a, s') = 0 并且代理面临路径 A - > s -> B 对比 A -> r -> t -> B。使用原始马尔可夫过程,我们得到两条路径的 EV 均为 0,因此两条路径都是最优的。但是随着我们得到的每个转换的潜力增加,第一条路径为 gamma^2*f(B)-f(A),第二条路径为 gamma^3*f(B) - f(A)。因此,如果 gamma < 1,并且 0 < f(B)、f(A),则第二条路径不再是最优的。
是我误解了定理,还是犯了其他错误?
您错过了这样的假设,即对于 每个终端和起始状态 s_T,s_0 我们有 f(s_T) = f(s_0) = 0。(注意,在论文中假设在终端状态之后总是有新的起始状态,并且潜在的“环绕”)。
我需要帮助来理解 MDP 的整形定理。这是相关论文:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf 它基本上说一个马尔可夫决策过程在状态和动作 R(s, a, s') 之间的转换上具有一些奖励函数,具有与不同马尔可夫决策过程相同的最优策略它的奖励定义为 R'(s, a, s') = R(s, a, s') + gamma*f(s') - f(s),其中 gamma 是时间折扣率。
我理解这个证明,但它似乎是一个微不足道的案例,当所有状态和动作的 R(s, a, s') = 0 并且代理面临路径 A - > s -> B 对比 A -> r -> t -> B。使用原始马尔可夫过程,我们得到两条路径的 EV 均为 0,因此两条路径都是最优的。但是随着我们得到的每个转换的潜力增加,第一条路径为 gamma^2*f(B)-f(A),第二条路径为 gamma^3*f(B) - f(A)。因此,如果 gamma < 1,并且 0 < f(B)、f(A),则第二条路径不再是最优的。
是我误解了定理,还是犯了其他错误?
您错过了这样的假设,即对于 每个终端和起始状态 s_T,s_0 我们有 f(s_T) = f(s_0) = 0。(注意,在论文中假设在终端状态之后总是有新的起始状态,并且潜在的“环绕”)。