强化学习:神经网络

Reinforcement learning : Neural Net

当使用神经网络在高状态空间中获得泛化时,输入单元是什么?

例如,如果状态向量是一维的,比如实轴上的位置..只有一个输入单元? (为每个动作提供单独的网络)

是的,至少如果您使用类似于 Q 学习或 Sarsa 的算法,函数逼近器应该学习 Q 函数 Q(s,a)。在您的情况下,如果您为每个动作使用一个神经网络,则该网络必须近似函数 Q(s) 。此外,如果状态具有一维,则网络将只需要一个输入神经元。