强化学习：神经网络

Reinforcement learning : Neural Net

当使用神经网络在高状态空间中获得泛化时，输入单元是什么？

例如，如果状态向量是一维的，比如实轴上的位置..只有一个输入单元？（为每个动作提供单独的网络）

是的，至少如果您使用类似于 Q 学习或 Sarsa 的算法，函数逼近器应该学习 Q 函数 Q(s,a)。在您的情况下，如果您为每个动作使用一个神经网络，则该网络必须近似函数 Q(s) 。此外，如果状态具有一维，则网络将只需要一个输入神经元。