微软推出超级麻将AI Suphx,破解非完美信息游戏(2)

巨大的状态空间:与只有52张牌的德州扑克相比,136张麻将牌的排列组合可能性更多。同时,麻将中同一个玩家两次出牌之间,夹杂了其他三个玩家的出牌和自己摸的底牌,可能出现的不同局面数目非常巨大。值得特别指出的是,在麻将中,4位玩家的出牌顺序是不固定的,任意一位玩家的“吃碰杠”都可能使出牌顺序突然改变,导致游戏树不规则、且动态变化。这些特点使麻将很难直接利用AlphaGo等棋盘游戏AI常用的蒙特卡洛树搜索算法。

非完美信息博弈:象棋和围棋属于完美信息游戏,玩家可以看到棋局中对方玩家的落子。麻将则存在大量的隐藏信息。具体而言,麻将中每个玩家可以有13张手牌,另外还有84张底牌。对于一个玩家而言,他只知道自己手里的13张牌和之前已经打出来的牌,却无法知道别人的手牌和没有翻出来的底牌,所以最多可以有超过120张未知的牌。这么多的未知信息使得麻将的难度非常高。一方面,由于随机性太大,玩家即便在出牌决策中估计对方玩家手牌、底牌等不可见的牌,也无法避免不确定性对于游戏走向的影响。这将对AI模型的训练带来很大挑战:AI模型很难发现已知牌面信息和最优打法之间的逻辑链路。另一方面,丰富的隐藏信息导致游戏树的宽度非常大,对树搜索算法的可行性提出了进一步的挑战。

复杂的奖励机制:日本麻将的规则是“无役不能和牌”,多样的特殊牌面构成了复杂的“役种”和番数计算规则。一轮游戏共包含8局,单局得分与役种和番数相关,最后根据8局的得分总和进行排名,来形成最终影响段位的点数奖惩。因此有时麻将高手会策略性输牌,例如,在第8轮时如果A玩家已经大比分领先第二名,他可能会故意放炮给排名第四的玩家,来防止总分被排名第二的玩家反超,保证自己在最终结算时获得最大的点数奖励。这为构建高超的麻将AI策略带来了额外的挑战,AI需要审时度势,把握进攻与防守的时机。

“面对麻将游戏的巨大挑战,AI仅靠强大的计算力无法从根本上解决问题,而需要更强的直觉、预测、推理和模糊决策能力,”微软亚洲研究院副院长、机器学习领域负责人刘铁岩博士表示。

为了让Suphx高效地学习麻将的复杂状态和策略,微软亚洲研究院针对麻将的特点与难点尝试了一系列基于强化学习的新算法,希望通过技术层面的创新,让Suphx具备有效的状态表达机制和强大的策略学习能力,同时具有大局意识,能从游戏的全局角度做出策略性的判断,确保统计意义上总分的领先地位。

比如,为了应对巨大的状态空间,研究团队引入了全新的机制对探索过程的多样性进行动态调控,让Suphx可以比传统算法更加充分地试探牌局状态的不同可能;另一方面,一旦某一轮的底牌给定,其状态子空间会大幅缩小;所以研究团队让Suphx在推理阶段根据本轮的牌局来动态调整策略,对缩小了的状态子空间进行更有针对性的探索,从而更好地根据本轮牌局的演进做出自适应的决策。

其次,针对非完美信息博弈的挑战,Suphx创新性地尝试了先知教练技术来提升强化学习的效果。其基本思想是在自我博弈的训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向,使其学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息,从中找到有效的决策依据。

另外,对于麻将复杂的牌面表达和计分机制,研究团队还利用全盘预测技术搭建起每轮比赛和8轮过后的终盘结果之间的桥梁。这个预测器通过精巧的设计,可以理解每轮比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一轮比赛之中,以便对自我博弈的过程进行更加直接而有效的指导,并使得Suphx可以学会一些具有大局观的高级技巧。

得益于以上新技术和其他方面的创新,自今年3月进入天凤平台以来,Suphx在与人类玩家的对局中学得非常快。目前,在平衡攻击和防御方面,Suphx表现出了比许多顶尖人类玩家更明智的策略,能够战略性地完成短期损失与长期收益之间的权衡,并根据已有的模糊信息进行快速决策。

Suphx一直在不断学习与进步,研究团队也一直在对Suphx背后核心算法的价值进行评估、反思和迭代,从而实现进一步的改进和提升。刘铁岩表示,“ 虽然Suphx根据麻将的独特挑战进行了针对性的设计,也取得了不错的战绩,但我们的创新从未停止。我们期待在不久的将来发明出更新颖、更强大的AI技术,使得Suphx的能力有更大幅度的提升。纵观历史,游戏 AI 的进化始终与 AI 研究进展相生相伴,很多关于人工智能的研究都起源于研究如何构建能够完成游戏的智能体。我们希望通过对Suphx的研究来探索及扩展已有AI技术的边界,不断推动人工智能领域的进步。“

突破AI研究的边界,解决更复杂的现实挑战

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/23712.html