NGU、R2D2、MuZero 和 Agent57 属于强化学习分类法的哪个位置？

Where do NGU, R2D2, MuZero and Agent57 fit on the Taxonomy of Reinforcement Learning?

reinforcement-learning

OpenAI 有很好的强化学习算法分类法。我想知道下面的文件会放在这棵树上的什么地方？

我正在制作 RL 分类法 [1]，最近不得不自己回答这个问题。这是我的看法。

Agent57基于NGU，而NGU又基于R2D2，即Recurrent Replay Distributed DQN。所以它们都是 Q-learning，无模型的 RL。
MuZero 是基于模型的，它正在学习模型。这在论文（第 2 页，第一个陈述）中有说明，在 Agent57 论文中也有提及。

[1] https://github.com/bennylp/RL-Taxonomy