ε-贪心策略，探索率下降

ϵ-greedy policy with decreasing rate of exploration

我想在 Q-learning 中实现 ε-greedy policy action-selection policy。在这里很多人都使用了以下等式来降低探索率，

ɛ = e^(-En)

n = 代理人的年龄

E = 利用参数

但是我不清楚这个"n"是什么意思？是对特定状态-动作对的访问次数还是迭代次数？

非常感谢

您的问题有几个有效答案。从理论上讲，为了达到收敛，Q-learning要求所有state-action对都被（渐进地）无限频繁地访问。

前面的条件可以通过多种方式实现。在我看来，更常见的做法是将 n 简单地解释为时间步数，即智能体与环境进行了多少次交互 [例如 Busoniu, 2010, Chapter 2].

但是，在某些情况下，每个状态的探索率可能不同，因此 n 是智能体访问状态 s 的次数 [例如，Powell, 2011, chapter 12].

两种解释同样有效，并确保（与其他条件一起）Q-learning 的渐近收敛。何时使用某种方法或另一种方法更好取决于您的特定问题，类似于您应该使用 E 的确切值。