NGU、R2D2、MuZero 和 Agent57 属于强化学习分类法的哪个位置?
Where do NGU, R2D2, MuZero and Agent57 fit on the Taxonomy of Reinforcement Learning?
OpenAI 有很好的强化学习算法分类法。我想知道下面的文件会放在这棵树上的什么地方?
我正在制作 RL 分类法 [1],最近不得不自己回答这个问题。这是我的看法。
- Agent57基于NGU,而NGU又基于R2D2,即Recurrent Replay Distributed DQN。所以它们都是 Q-learning,无模型的 RL。
- MuZero 是基于模型的,它正在学习模型。这在论文(第 2 页,第一个陈述)中有说明,在 Agent57 论文中也有提及。
OpenAI 有很好的强化学习算法分类法。我想知道下面的文件会放在这棵树上的什么地方?
我正在制作 RL 分类法 [1],最近不得不自己回答这个问题。这是我的看法。
- Agent57基于NGU,而NGU又基于R2D2,即Recurrent Replay Distributed DQN。所以它们都是 Q-learning,无模型的 RL。
- MuZero 是基于模型的,它正在学习模型。这在论文(第 2 页,第一个陈述)中有说明,在 Agent57 论文中也有提及。