如果我不使用 e-greedy,Q Learning 算法会产生相同的结果吗?
Will Q Learning algorithm produce the same result if I do not use e-greedy?
我正在尝试实施 Q-Learning 算法,但我没有足够的时间来 select 通过 e-greedy.For 简单的操作 我正在选择随机操作,没有任何适当的 justification.Will 这个工作?
是的,随机动作选择将允许 Q-learning
学习最优策略。 e-greedy exploration 的目标是确保所有的状态-动作对都被(渐进地)无限频繁地访问,这是一个收敛要求[Sutton & Barto, Section 6.5]。显然,一个随机的动作选择过程也符合这个要求。
主要缺点是您的代理在整个学习阶段都表现不佳。另外,收敛速度可能会受到影响,但我想这最后一点非常依赖于应用程序。
我正在尝试实施 Q-Learning 算法,但我没有足够的时间来 select 通过 e-greedy.For 简单的操作 我正在选择随机操作,没有任何适当的 justification.Will 这个工作?
是的,随机动作选择将允许 Q-learning
学习最优策略。 e-greedy exploration 的目标是确保所有的状态-动作对都被(渐进地)无限频繁地访问,这是一个收敛要求[Sutton & Barto, Section 6.5]。显然,一个随机的动作选择过程也符合这个要求。
主要缺点是您的代理在整个学习阶段都表现不佳。另外,收敛速度可能会受到影响,但我想这最后一点非常依赖于应用程序。