机器学习:因为与特定代理人对战而学习的特定策略?

Machine learning: specific strategy learned because of playing against specific agent?

首先,我发现问题的表述有困难,欢迎反馈。

我必须制作一个机器学习代理来播放点和框。

我只是处于早期阶段,但提出了一个问题:如果我让我的机器学习代理(具有特定的实现)与它自己的副本对战以学习和改进它的游戏玩法,不是吗?只是针对特定类型的游戏制定策略?

如果我让我的智能体以任意方式与不同形式的其他智能体对战和学习,会不会更有趣?

让代理通过与自身副本对战来学习的想法被称为 self-play。是的,在 self-play 中,您有时会看到代理会 "overfit" 反对他们的 "training partner",导致学习过程不稳定。请参阅 this blogpost by OpenAI(特别是“多人游戏”部分),其中描述了这个问题。

到目前为止,我在研究中看到的解决这个问题的最简单方法确实是产生一组更多样化的培训合作伙伴。例如,这可以通过将代理的多个过去版本的检查点存储在内存/文件中,并在每一集开始时随机选择其中一个作为训练伙伴来完成。 DeepMind(2016版)原版AlphaGo围棋程序self-training过程中大致就是这么做的,在another blogpost by OpenAI.

中也有描述