强化学习代理可以学习离散分布吗

can reinforcement learning agent learn a discrete distribution

在网格世界中,如果我开始按照初始策略采取行动,作为可用行动之间的离散分布。假设我在每个州有四个动作(北、南、东、西),现在我决定在每个州有 50% 的时间我会选择动作 "north"。 30% 的时间我会选择行动 "south"。 10% 的时间动作 "east" 和休息 10% 的动作 "west"。它将对最优政策产生什么影响。如果我选择了动作之间的均匀随机分布。我想更频繁地探索一个动作会让那个状态和动作对的 q 值会快速收敛并且会更真实。但是如果我更多地探索一个动作,它的 q 值就不会更多。请告诉我我是否正确。

如果您的发行版允许您进入世界中的任何状态,那么随着您的剧集数接近无穷大,将不会有任何影响。也就是说,您将获得完全相同的最优策略(假设只有一个最优策略),而不管您采取行动的概率分布如何。

当然这在理论上适用,但在实践中您可能会注意到改变概率分布的另一个副作用。

假设您所处的世界只允许您 select 。如果目标一直在左边,选择left动作的概率是99%,你会很快得到最优策略。如果选择left动作的概率是1%,那么你得到最优策略会非常非常慢。无论哪种方式,有足够的剧集,您将获得最优策略。

这同样适用于 e-greedy 方法,其中概率分布可能会在 episode 中发生变化。