如果我不使用 e-greedy，Q Learning 算法会产生相同的结果吗？

Will Q Learning algorithm produce the same result if I do not use e-greedy?

我正在尝试实施 Q-Learning 算法，但我没有足够的时间来 select 通过 e-greedy.For 简单的操作我正在选择随机操作，没有任何适当的 justification.Will 这个工作？

是的，随机动作选择将允许 Q-learning 学习最优策略。 e-greedy exploration 的目标是确保所有的状态-动作对都被（渐进地）无限频繁地访问，这是一个收敛要求[Sutton & Barto, Section 6.5]。显然，一个随机的动作选择过程也符合这个要求。

主要缺点是您的代理在整个学习阶段都表现不佳。另外，收敛速度可能会受到影响，但我想这最后一点非常依赖于应用程序。