机器如何知道哪一步可以获得最大奖励？

How machine know which step can get max reward?

在我的理解中，强化学习会从行动中获得奖励。

然而，在玩视频游戏时，大多数步骤（例如：街头霸王）都没有奖励（奖励== 0），最终我们得到了奖励（例如：玩家获胜，奖励= 1 ), 有那么多动作，机器怎么知道哪一个是赢得这场比赛的关键？

在强化学习中，奖励可以是立即或延迟[1]:

立即奖励可能是：
- 如果智能体赢得比赛（这是打败对手的最后一个动作），则非常积极；
- 如果代理人输掉比赛，负数非常低；
- 如果该动作对你的对手造成伤害则为正；
- 如果特工失去生命值则为负。
延迟奖励 是由通过当前操作可能获得的未来奖励引起的。例如，向左移动一步，可以使它在下一步中避免被击中，并可以击中对手。

强化学习算法，例如Q-learning，选择给出最高预期奖励的动作。该奖励会根据当前奖励（r 在时间 t 和可能的未来奖励（等式中的最后一个值，max Q，基于时间 t+1 及之后的操作）：

A Beginner's Guide to Deep Reinforcement Learning 中提供了有关（深度）强化学习的更多详细信息以及一些游戏应用示例。