NGU、R2D2、MuZero 和 Agent57 属于强化学习分类法的哪个位置?

Where do NGU, R2D2, MuZero and Agent57 fit on the Taxonomy of Reinforcement Learning?

OpenAI 有很好的强化学习算法分类法。我想知道下面的文件会放在这棵树上的什么地方?

  1. Never Give Up
  2. Agent57
  3. MuZero
  4. R2D2

我正在制作 RL 分类法 [1],最近不得不自己回答这个问题。这是我的看法。

  • A​​gent57基于NGU,而NGU又基于R2D2,即Recurrent Replay Distributed DQN。所以它们都是 Q-learning,无模型的 RL。
  • MuZero 是基于模型的,它正在学习模型。这在论文(第 2 页,第一个陈述)中有说明,在 Agent57 论文中也有提及。

[1] https://github.com/bennylp/RL-Taxonomy