从看到的转换中确定 MDP
determine MDP from seen transitions
马尔可夫决策过程中出现了以下转换。尝试确定它
R A S′ S
0 U C B
-1 L E C
0 D C A
-1 R E C
0 D C A
+1 R D C
0 U C B
+1 R D C
我需要找到状态、转换、奖励和转换概率。
除了概率,我已经解决了所有问题,但我不知道如何计算它们
如果有人可以提供帮助,我只需要知道从哪里开始
对于状态 B
,操作 U
总是导致新状态 C
。因此,P(C|B,U)=1
(您可能还会争辩说 P(C|B)=1
)。 P(D|C,R)=2/3
因为在三分之二的情况下,状态 C
中的操作 R
导致 D
。
马尔可夫决策过程中出现了以下转换。尝试确定它
R A S′ S
0 U C B
-1 L E C
0 D C A
-1 R E C
0 D C A
+1 R D C
0 U C B
+1 R D C
我需要找到状态、转换、奖励和转换概率。 除了概率,我已经解决了所有问题,但我不知道如何计算它们 如果有人可以提供帮助,我只需要知道从哪里开始
对于状态 B
,操作 U
总是导致新状态 C
。因此,P(C|B,U)=1
(您可能还会争辩说 P(C|B)=1
)。 P(D|C,R)=2/3
因为在三分之二的情况下,状态 C
中的操作 R
导致 D
。