用于评估强化学习代理玩 Atari 的人类跟踪数据?
human trace data for evaluation of reinforcement learning agent playing Atari?
在最近关于 Atari 游戏的强化学习研究中,agents 性能通过 human start 来评估。
- [1507.04296] Massively Parallel Methods for Deep Reinforcement Learning
- [1509.06461] Deep Reinforcement Learning with Double Q-learning
- [1511.05952] Prioritized Experience Replay
在人类开始评估中,学习代理开始从人类专业人员的游戏中随机采样点的情节。
我的问题是:
我在哪里可以得到这个人类专家的游戏轨迹数据?
为了比较票价,每个研究的跟踪数据应该是相同的,但我找不到数据。
我不知道这些数据在任何地方都是公开的。事实上,据我所知,所有使用此类 human start 评估的论文都是由相同的 lab/organization (DeepMind) 撰写的,因此不排除这样的可能性DeepMind 一直将数据保存在内部,没有与外部研究人员共享。
请注意,论文 Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents 提出了一种不同的(可以说是更好的)方法来在环境中引入所需的随机性,以阻止算法简单地记住强大的动作序列。他们的方法称为 粘性操作,在该论文的第 5.2 节中进行了描述。在 5.3 中,他们还描述了其他方法的许多缺点,包括 human starts 方法的缺点。
除了可以说是一种更好的方法之外,粘性动作方法还有一个优点,即所有研究人员都可以很容易地实施和使用它,从而可以进行公平比较。因此,我强烈建议只使用粘性操作而不是人工启动。缺点显然是你不能再轻松地将结果与那些 DeepMind 论文中报告的人工启动结果进行比较,但是这些评估有许多缺陷,正如上面链接的论文中所描述的那样(人工启动可以被认为是一个缺陷,但它们也经常有其他缺陷,比如报告最好的运行的结果而不是报告多个运行的平均值等)。
在最近关于 Atari 游戏的强化学习研究中,agents 性能通过 human start 来评估。
- [1507.04296] Massively Parallel Methods for Deep Reinforcement Learning
- [1509.06461] Deep Reinforcement Learning with Double Q-learning
- [1511.05952] Prioritized Experience Replay
在人类开始评估中,学习代理开始从人类专业人员的游戏中随机采样点的情节。
我的问题是:
我在哪里可以得到这个人类专家的游戏轨迹数据?
为了比较票价,每个研究的跟踪数据应该是相同的,但我找不到数据。
我不知道这些数据在任何地方都是公开的。事实上,据我所知,所有使用此类 human start 评估的论文都是由相同的 lab/organization (DeepMind) 撰写的,因此不排除这样的可能性DeepMind 一直将数据保存在内部,没有与外部研究人员共享。
请注意,论文 Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents 提出了一种不同的(可以说是更好的)方法来在环境中引入所需的随机性,以阻止算法简单地记住强大的动作序列。他们的方法称为 粘性操作,在该论文的第 5.2 节中进行了描述。在 5.3 中,他们还描述了其他方法的许多缺点,包括 human starts 方法的缺点。
除了可以说是一种更好的方法之外,粘性动作方法还有一个优点,即所有研究人员都可以很容易地实施和使用它,从而可以进行公平比较。因此,我强烈建议只使用粘性操作而不是人工启动。缺点显然是你不能再轻松地将结果与那些 DeepMind 论文中报告的人工启动结果进行比较,但是这些评估有许多缺陷,正如上面链接的论文中所描述的那样(人工启动可以被认为是一个缺陷,但它们也经常有其他缺陷,比如报告最好的运行的结果而不是报告多个运行的平均值等)。