如何训练神经网络来玩乒乓球游戏？

How to train a Neural Network to play a pong game?

我试图理解这篇解释如何训练神经网络来玩乒乓球游戏的论文。 https://cloud.github.com/downloads/inf0-warri0r/neural_pong/README.pdf

我最近开始研究神经网络，知道反向传播的概念。在本文中，反向传播用于训练神经网络。

这个神经网络中有五个输入神经元。

隐藏层有10个神经元，输出层有1个神经元，输出桨的位置(py)。

从这一点开始，我有一些疑惑需要清除。

由于反向传播是一种监督学习方法，它应该有一些期望的输出，我们从中迭代减去当前输出以找出输出中的误差并计算梯度下降。

首先，我想劝阻您不要将本文用作教育工具。代码记录不完整，论文本身的信息量也不大。

这种设计有一些缺点。例如，对于每个球，您只能获得一个数据点来对其进行训练，并且由于当我们收集该数据点时球始终位于游戏板的边缘，因此我们并没有学到太多关于球何时移动的知识实际上是在地图上弹跳。

我建议在播放时跟踪网络的所有值。稍后您可以使用原始游戏状态和球最终到达的实际位置来训练网络。这样即使成功阻挡球也可以有效地训练网络，并从游戏中的所有点获取数据。