AlphaZero称王!DeepMind AI制霸三大棋类游戏
2018年12月07日 由 浅浅 发表
427500
0
在2017年,DeepMind推出了
AlphaZero,自己学会掌握国际象棋,日本将棋和Go,击败了世界冠军。DeepMind很高兴看到国际象棋界成员的回应,他们在和AlphaZero对战中看到了一种突破性的,高度动态和非传统的游戏风格,与之前的任何国际象棋游戏程序都不同。
现在,DeepMind推出了AlphaZero的完整评估,该评估发表在Science上,它描述了AlphaZero如何快速学习每个游戏,成为历史上最强大的玩家,尽管它是从随机游戏开始训练,没有内置该领域知识,只知道游戏的基本规则。
前世界国际象棋冠军Garry Kasparov:我无法掩饰自己的满足感,它的风格变化非常灵活,和我很像!
正是这种重新学习每个游戏,不受人类游戏规范的约束的能力,产生了独特的,非传统的,具有创造性和动态的游戏风格。国际象棋大师Matthew Sadler和女性国际大师Natasha Regan在即将出版的书籍《Game Changer》(将于2019年1月出版)中,分析了数以千计的AlphaZero对战,指出它的风格不同于任何传统的国际象棋引擎。Matthew表示,“这就好像发现了过去一些高手的秘籍。”
传统的国际象棋引擎,包括世界计算机国际象棋冠军Stockfish和IBM突破性的Deep Blue,依赖于数千个由强大的人类玩家制定的规则和启发式方法,试图解释游戏中的每一个可能性。日本将棋程序也是特定的,使用与国际象棋程序类似的搜索引擎和算法。
AlphaZero则采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些人类制定的规则,这些算法除了基本规则之外一无所知。
在国际象棋中,AlphaZero仅用了4个小时便首次超越了Stockfish,在日本将棋中,AlphaZero在2小时后首次超越Elmo;在Go中,AlphaZero首次超越了击败李世石的AlphaGo的版本,注意:每个训练步骤代表4096个棋盘位置。
为了学习这些游戏,一个未经训练的神经网络通过
强化学习的试错过程,与自己进行数百万次对抗。起初,它完全随机,但随着时间的推移,系统从胜,败,平局中学习,以调整神经网络的参数,使其在未来选择更有利的策略。网络需要的训练量取决于游戏的风格和复杂程度,国际象棋大约需要9个小时,日本将棋大约需要12个小时,Go需要13天。
史上唯一一位获得了日本将棋全部七个头衔的羽生善治:它的一些举动,例如将国王转移到棋盘的中心,这违反了将棋理论,并且从人的角度来看,这似乎会使AlphaZero处于危险的位置。但令人难以置信的是,它仍然掌控着棋局。其独特的风格向我们展示了新的可能性。
训练有素的网络用于指导搜索算法,即蒙特卡罗树搜索(MCTS),以选择游戏中最有希望的走法。对于每次移动,AlphaZero仅搜索传统国际象棋引擎所考虑的一小部分走法。例如,在国际象棋中,它每秒仅搜索6万个走法,相比之下,Stockfish每秒大约搜索6千万个走法。
经过全面训练的系统将与人工引擎进行测试,针对国际象棋(Stockfish)和日本象棋(Elmo),以及我们之前自学成才的系统、目前最强的Go玩家AlphaGo Zero。
每个程序都在其设计的硬件上运行。Stockfish和Elmo使用44个CPU核心(与TCEC世界锦标赛相同),而AlphaZero和AlphaGo Zero使用配备4个第一代TPU和44个CPU核心的机器。第一代TPU的推理速度与NVIDIA Titan V GPU等商用硬件大致相似,尽管架构不具有直接可比性。
所有比赛控制了时长,每场比赛限时3小时,每一步限时15秒。
在每次评估中,AlphaZero都击败了对手:
- 在国际象棋中,AlphaZero击败了2016 TCEC(第9季)世界冠军Stockfish,在1000场比赛中赢得了155场,仅输掉了6场比赛。为了验证AlphaZero的鲁棒性,团队还开展了一系列人类常见的开局开始的测试。在每个开局中,AlphaZero都击败了Stockfish。团队也用到了从2016年TCEC世界冠军使用的开局,和一系列对Stockfish的最新开发版本,并使用很强的Stockfish变体开始比赛。在所有比赛中,AlphaZero都获胜了。
- 在将棋中,AlphaZero击败了2017年CSA世界冠军版Elmo,在91.2%的比赛中获胜。
- 在Go中,AlphaZero击败了AlphaGo Zero,在61%的比赛中获胜。
然而,正是AlphaZero的风格让玩家着迷。例如,在国际象棋中,AlphaZero在其自我训练中独立发现并展开了人类常见的策略,如openings,king safety和pawn structure。但是,由于自学并不受传统观念的影响,它还发展了自己的直觉和策略,增加了一系列令人兴奋的新颖想法,扩展了几个世纪以来对国际象棋战略的思考。
前世界国际象棋冠军Garry Kasparov:一个多世纪以来,国际象棋一直被用作人类和机器认知的罗塞塔石碑。AlphaZero通过这些非凡的事情,更新了古老的棋盘游戏和尖端科学之间的显著联系。
Matthew Sadler表示,玩家将注意到的第一件事就是AlphaZero的风格,它带着目的和力量围绕着对手的王者的方式。这种风格支撑着AlphaZero的动态灵活,最大限度地提高了自身的活动性和移动性,同时最大限度地减少了对手的活动和移动性。与直觉相反,AlphaZero似乎对“材料”的重视程度较低,这一想法是现代游戏的基础,每一件作品都具有价值,如果一个玩家在棋盘上的棋子价值高于另一个,那么他们就具有物质优势。相反,AlphaZero愿意在游戏早期牺牲材料,以获得长期收益。
令人印象深刻的是,它设法将其戏剧风格附加到各种各样的位置和开场中,从一开始它就以非常人性化目的,以非常谨慎的方式发挥作用。传统程序很强,几乎不会出现明显错误,但在面对没有具体和可计算解决方案的位置时会出现问题,而正是在这样的位置,AlphaZero能实现感觉,洞察或直觉。
这种独特的能力,在其他传统的国际象棋引擎中是没有的,已经被用来为国际象棋迷们提供有关Magnus Carlsen和Fabiano Caruana最近世界国际象棋锦标赛比赛的新见解和评论,并将在《Game Changer》中进一步探讨。“看看AlphaZero的分析与顶级国际象棋引擎甚至顶级大师级游戏的分析有何不同,这真是令人着迷,AlphaZero可以成为整个社区的强大教学工具。”
AlphaZero的教学能力与我们在2016年AlphaGo对战冠军李世石时所看到的相呼应。在比赛期间,AlphaGo发挥了许多极具创造性的策略,包括在第二场比赛中第37手,推翻了数百年的定势。这些招数已经被包括Lee Sedol本人在内的所有级别的玩家研究过,他们评论道:“我认为AlphaGo是基于概率计算的,它只是一台机器。但当我看到这一手时,我改变了主意。AlphaGo的确很有创意。”
Garry Kasparov:其影响远远超出了我心爱的棋盘,这些自学的专家机器不仅表现得非常优秀,我们实际上也可以从他们所产生的新知识中学习。
和Go一样,我们对AlphaZero对国际象棋的创造性反应感到兴奋,自从计算机时代开始以来,AI面临着巨大的挑战,包括Babbage,Turing,Shannon和von Neumann在内的早期开拓者都试图设计国际象棋程序。但AlphaZero不仅仅影响了国际象棋,棋牌或围棋。为了创建能够解决各种现实问题的智能系统,它们需要灵活并适应新情况。虽然在实现这一目标方面取得了一些进展,但它仍然是AI研究中的一项重大挑战,其系统能够以非常高的标准掌握特定技能,但在略微修改的任务中往往会失败。
AlphaZero能够掌握三种不同的复杂游戏,并可能完成所有完美信息游戏,这是克服这一问题的重要一步。它表明单个算法可以学习如何在一系列设置中发现新知识。尽管它还处于早期阶段,AlphaZero的创意见解加上在AlphaFold等其他项目中看到的令人鼓舞的结果,团队对创建通用学习系统的使命充满信心,这有助于找到一些新的方案,以解决最重要和最复杂的科学问题。
论文:science.sciencemag.org/content/362/6419/1140
下载论文的Open Access版本:deepmind.com/documents/260/alphazero_preprint.pdf
阅读 Garry Kasparov 随附的科学社论:science.sciencemag.org/content/362/6419/1087
阅读 Deep Blue联合创始人Murray Campbell 撰写的文章:science.sciencemag.org/content/362/6419/1118
下载前20名AlphaZero游戏:deepmind.com/documents/259/alphazero_stockfish_top20.zip
下载210个AlphaZero国际象棋游戏和100个将棋游戏:deepmind.com/research/alphago/alphazero-resources/
下载随附的图稿:deepmind.com/documents/245/alphazero_images.zip
了解有关AlphaZero书籍《Game Changer》的更多信息:www.newinchess.com/game-changer