机器如何知道哪一步可以获得最大奖励?
How machine know which step can get max reward?
在我的理解中,强化学习会从行动中获得奖励。
然而,在玩视频游戏时,大多数步骤(例如:街头霸王)都没有奖励(奖励== 0),最终我们得到了奖励(例如:玩家获胜,奖励= 1 ), 有那么多动作,机器怎么知道哪一个是赢得这场比赛的关键?
在强化学习中,奖励可以是立即或延迟[1]:
- 立即奖励可能是:
- 如果智能体赢得比赛(这是打败对手的最后一个动作),则非常积极;
- 如果代理人输掉比赛,负数非常低;
- 如果该动作对你的对手造成伤害则为正;
- 如果特工失去生命值则为负。
- 延迟奖励 是由通过当前操作可能获得的未来奖励引起的。例如,向左移动一步,可以使它在下一步中避免被击中,并可以击中对手。
强化学习算法,例如Q-learning,选择给出最高预期奖励的动作。该奖励会根据当前奖励(r 在时间 t 和可能的未来奖励(等式中的最后一个值,max Q,基于时间 t+1 及之后的操作):
A Beginner's Guide to Deep Reinforcement Learning 中提供了有关(深度)强化学习的更多详细信息以及一些游戏应用示例。
在我的理解中,强化学习会从行动中获得奖励。
然而,在玩视频游戏时,大多数步骤(例如:街头霸王)都没有奖励(奖励== 0),最终我们得到了奖励(例如:玩家获胜,奖励= 1 ), 有那么多动作,机器怎么知道哪一个是赢得这场比赛的关键?
在强化学习中,奖励可以是立即或延迟[1]:
- 立即奖励可能是:
- 如果智能体赢得比赛(这是打败对手的最后一个动作),则非常积极;
- 如果代理人输掉比赛,负数非常低;
- 如果该动作对你的对手造成伤害则为正;
- 如果特工失去生命值则为负。
- 延迟奖励 是由通过当前操作可能获得的未来奖励引起的。例如,向左移动一步,可以使它在下一步中避免被击中,并可以击中对手。
强化学习算法,例如Q-learning,选择给出最高预期奖励的动作。该奖励会根据当前奖励(r 在时间 t 和可能的未来奖励(等式中的最后一个值,max Q,基于时间 t+1 及之后的操作):
A Beginner's Guide to Deep Reinforcement Learning 中提供了有关(深度)强化学习的更多详细信息以及一些游戏应用示例。