AlphaGo Zero board evaluation function 使用多个时间步长作为输入... 为什么?

AlphaGo Zero board evaluation function uses multiple time steps as an input... Why?

根据 AlphaGo Cheat Sheet,AlphaGo Zero 使用 连续棋盘配置序列 对其 游戏状态 进行编码。

理论上,最新的状态包含了所有必要的信息,但它们包括了之前的7个配置。

他们为什么选择注入如此多的复杂性?

他们在听什么??

AlphaGoZero

唯一的原因是因为在所有游戏中——围棋、国际象棋和将棋——都有重复规则。这意味着从当前的棋盘位置不能完全观察到游戏。换句话说,可能有两个相同的位置具有两个截然不同的评估。例如,在一个围棋棋局中可能有获胜的一步,但在一个相同的围棋棋局中,该棋步要么是非法的,要么是 would-be-winning 延续中接下来的几步棋之一创建了一个非法棋局。

您可以尝试仅输入当前棋盘位置并仅处理树中的重复项。但我认为这会更弱,因为在某些情况下评估函数会出错,如果树的那个分支没有被足够深入地探索以纠正问题,就会导致 horizon 效果。