DeepMindTechnologiesLtd.的一组研究人员创建了一个名为“DeepNash”的人工智能应用程序,能够以专家级别玩Stratego游戏。在他们发表在《科学》杂志上的论文中,该小组描述了他们为提高应用程序的游戏水平而采取的独特方法。
Stratego是一种双人棋盘游戏,被认为很难掌握。每个玩家的目标是夺取对手的旗帜,这面旗帜隐藏在他们最初的40个游戏棋子中。每个游戏棋子都标有实力排名——排名较高的玩家在对决中击败排名较低的玩家。让游戏变得更加困难的是,玩家在面对面之前都无法看到对手游戏棋子上的标记。
此前的研究表明,该游戏的复杂度高于国际象棋或围棋,有10535种可能的游戏场景。这种复杂程度使得计算机专家试图创建玩战略游戏的AI系统极具挑战性。在这项新的努力中,研究人员采用了不同的方法,创建了一个能够击败大多数人类和其他人工智能系统的应用程序。
与其他AI系统设计一样,DeepNash首先学会了通过自己多次下棋来玩Stratego——在本例中,55亿次——相当于人类上百年的下棋时间。在它学会了如何下棋之后,研究人员并没有让它尝试向人类高手学习策略,甚至也没有让它与一般的其他对手对战。
相反,研究人员设计了一种算法,该算法致力于为每一步而不是完美的最佳策略。该算法基于博弈论:最佳策略将使DeepNash在任何给定的移动中至少有50/50的成功机会——远比人类希望实现的要好。
测试表明,该团队找到了提高AI应用玩Stratego几率的方法——它在在线游戏平台上玩了50次,取得了84%的获胜记录,并因此成为了前三名玩家之一网站。人类对手也从未被告知他们是在与电脑对战。