ε-贪心策略,探索率下降
ϵ-greedy policy with decreasing rate of exploration
我想在 Q-learning 中实现 ε-greedy policy action-selection policy。在这里很多人都使用了以下等式来降低探索率,
ɛ = e^(-En)
n = 代理人的年龄
E = 利用参数
但是我不清楚这个"n"是什么意思?是对特定状态-动作对的访问次数还是迭代次数?
非常感谢
您的问题有几个有效答案。从理论上讲,为了达到收敛,Q-learning要求所有state-action对都被(渐进地)无限频繁地访问。
前面的条件可以通过多种方式实现。在我看来,更常见的做法是将 n
简单地解释为时间步数,即智能体与环境进行了多少次交互 [例如 Busoniu, 2010, Chapter 2].
但是,在某些情况下,每个状态的探索率可能不同,因此 n
是智能体访问状态 s
的次数 [例如,Powell, 2011, chapter 12].
两种解释同样有效,并确保(与其他条件一起)Q-learning 的渐近收敛。何时使用某种方法或另一种方法更好取决于您的特定问题,类似于您应该使用 E
的确切值。
我想在 Q-learning 中实现 ε-greedy policy action-selection policy。在这里很多人都使用了以下等式来降低探索率,
ɛ = e^(-En)
n = 代理人的年龄
E = 利用参数
但是我不清楚这个"n"是什么意思?是对特定状态-动作对的访问次数还是迭代次数?
非常感谢
您的问题有几个有效答案。从理论上讲,为了达到收敛,Q-learning要求所有state-action对都被(渐进地)无限频繁地访问。
前面的条件可以通过多种方式实现。在我看来,更常见的做法是将 n
简单地解释为时间步数,即智能体与环境进行了多少次交互 [例如 Busoniu, 2010, Chapter 2].
但是,在某些情况下,每个状态的探索率可能不同,因此 n
是智能体访问状态 s
的次数 [例如,Powell, 2011, chapter 12].
两种解释同样有效,并确保(与其他条件一起)Q-learning 的渐近收敛。何时使用某种方法或另一种方法更好取决于您的特定问题,类似于您应该使用 E
的确切值。