我怎样才能影响 minimax 算法更喜欢立即奖励?
How can I influence minimax algorithm to prefer immediate rewards?
我正在为 Stratego 游戏(计算机完全了解所有棋子)实现 minimax。但是,我发现计算机通常不会攻击它可以轻易破坏的棋子。据我了解,minimax 分数来自移动树的叶节点(其中每个级别都是一个回合,叶节点的每个分数都是使用该位置的棋盘的评估函数计算的)。因此,如果我有 3 个级别的深度,计算机可以选择攻击第 1 步或攻击第 3 步。根据 minimax 算法,它具有相同的分数与之关联(结果棋盘位置具有相同的分数)。那么我如何影响 minimax 算法使其更喜欢即时奖励而不是最终奖励呢?也就是说,我希望分数随着时间的推移而衰减,但是根据 minimax 的工作方式,我不明白这是怎么可能的。 Minimax总是使用叶节点来确定中间节点。
正如其他人在评论中提到的,minimax 应该能够注意到延迟自动捕获一块是否存在危险,并且更改评估函数以强制它更喜欢更早的捕获可能不利于演奏性能。
不过,如果你真的想这样做,我认为唯一的方法是开始在你的游戏状态(不仅仅是棋盘)中存储额外的信息。您需要在每个游戏状态的内存中存储时间戳,这样您事后仍然可以准确地知道之前捕获一块的时间(在哪个回合)。使用该信息,您可以在搜索树的叶节点中使用的评估函数中实现衰减因子。
另一种解决方案可能是简单地确保搜索到均匀的深度级别; 2 或 4 而不是 3。这样,您的算法将始终评估对手而不是您的计算机玩家最后一步的游戏状态。所有的评估都会变得更加悲观,这可能会鼓励您的代理在某些情况下更喜欢更早的奖励。
奇数搜索深度通常会导致与偶数搜索深度不同的评估的这种效应称为 odd-even effect。您可能有兴趣对此进行更多研究(尽管通常出于与您的问题不同的原因讨论它)。
我正在为 Stratego 游戏(计算机完全了解所有棋子)实现 minimax。但是,我发现计算机通常不会攻击它可以轻易破坏的棋子。据我了解,minimax 分数来自移动树的叶节点(其中每个级别都是一个回合,叶节点的每个分数都是使用该位置的棋盘的评估函数计算的)。因此,如果我有 3 个级别的深度,计算机可以选择攻击第 1 步或攻击第 3 步。根据 minimax 算法,它具有相同的分数与之关联(结果棋盘位置具有相同的分数)。那么我如何影响 minimax 算法使其更喜欢即时奖励而不是最终奖励呢?也就是说,我希望分数随着时间的推移而衰减,但是根据 minimax 的工作方式,我不明白这是怎么可能的。 Minimax总是使用叶节点来确定中间节点。
正如其他人在评论中提到的,minimax 应该能够注意到延迟自动捕获一块是否存在危险,并且更改评估函数以强制它更喜欢更早的捕获可能不利于演奏性能。
不过,如果你真的想这样做,我认为唯一的方法是开始在你的游戏状态(不仅仅是棋盘)中存储额外的信息。您需要在每个游戏状态的内存中存储时间戳,这样您事后仍然可以准确地知道之前捕获一块的时间(在哪个回合)。使用该信息,您可以在搜索树的叶节点中使用的评估函数中实现衰减因子。
另一种解决方案可能是简单地确保搜索到均匀的深度级别; 2 或 4 而不是 3。这样,您的算法将始终评估对手而不是您的计算机玩家最后一步的游戏状态。所有的评估都会变得更加悲观,这可能会鼓励您的代理在某些情况下更喜欢更早的奖励。
奇数搜索深度通常会导致与偶数搜索深度不同的评估的这种效应称为 odd-even effect。您可能有兴趣对此进行更多研究(尽管通常出于与您的问题不同的原因讨论它)。