人机大战告一段落,OpenAI以2:0完胜人类Dota2冠军队
2019年04月15日 由 老张 发表
701518
0
在Dota 2世界冠军队OG和五机器人团队OpenAI Five之间的一系列现场比赛中,AI连续两场赢得了比赛,以2:0结束了比赛。凭借相当于在Dota 2领域45000年的实践经验,AI看起来势不可挡,它巧妙地驾驭战略决策,并以惊人的良好判断力占据优势。
人类团队OG的五位顶级Dota 2职业选手,于去年赢得了世界上最令人垂涎的电子竞技奖,当时它在The International上获得第一名,是首次举办的年度Dota 2锦标赛,奖品现已累计2500万美元。OG与OpenAI Five机器人对峙,所有机器人都使用相同的深度强化学习技术进行训练,并由同一系统的不同层独立控制。
今天OpenAI Five的表现是迄今为止最高质量的能力演示,该系统在去年8月以微弱劣势输给了实力较弱的电子竞技队。根据OpenAI联合创始人兼主席Greg Brockman的说法,OpenAI Five通过在加速的虚拟环境中进行自我改进而得到改善。
“OpenAI Five由深度强化学习提供支持,这意味着我们没有对其进行编码。我们把它编码为‘如何学习’,在其存在的10个月中,它已经玩了45000年的Dota 2。”
Dota 2是一款极其复杂的策略游戏,涉及超过100个独特角色,深层技能树和项目列表,以及在比赛中在屏幕上播放的令人眼花缭乱的变量阵列。因此,OpenAI在其AI系统扮演职业玩家时会施加一定的限制,最重要的是限制两个五人团队使用的英雄数量。
在这种情况下,每个小队有17个英雄可供选择。OpenAI还选择了所谓的“Captain's Draft”游戏模式,该模式允许每个团队战略性地禁止英雄,以防止其他团队在使用不同的拣选顺序之前选择这些角色。这让队长在英雄组合之间建立了优势,并且一旦团队开始逐一填写名单,就通过强大的计数器利用敌方英雄的弱点。
与之前的比赛一样,OpenAI也禁用了召唤和幻觉功能,这两项功能都涉及以英雄副本的形式引入额外变量,OpenAI还没有训练其系统来解释这些变量。除此之外,游戏就像正常的Dota 2比赛一样,其最终目标是摧毁敌方队伍的大型塔楼。
在第一场比赛中,OpenAI Five让OG感到吃惊,它们通过依赖一系列激进战术获得胜利,包括一个特殊的决定,即使用游戏内赚来的货币在英雄死亡后立即将其复活,甚至在比赛的早期也是如此。
正如Greg Brockman所指出的那样,OpenAI喜欢有利于短期收益的战略,揭示了它在掌握人类擅长的长期规划战略的不足。在这场比赛中,早期行动得到了回报,比赛维持了30多分钟。
在第二场比赛中,OpenAI表现得更好,在最初的几分钟内就占据了优势,然后无情地向人类玩家推进,并且只用了上一场的一多半时间就获得了胜利。Mike Cook是一位狂热的Dota 2玩家和观众,擅长人工智能和游戏设计的融合,他指出了OpenAI Five在第二场比赛中开始玩的异常激进,而OG在地图上几乎没有采取任何行动来对抗它的进攻。Cook特别指出了OpenAI Five是如何巧妙地利用其特定的英雄选择。
对于OpenAI来说,不仅仅是胜利值得庆祝,重要的是这证明了它对强化学习的态度及其AI取得里程碑式的进展。研究小组将不再公开展示其AI,但他们现在致力于开发软件,让人类与OpenAI Five软件实时协作,与机器人团队一起协作,并学习它们独特的、前所未有的战略和行为。
该组织还发布了一个平台,供公众与OpenAI Five对战,采用Arena的模式,将于4月18日起开放三天。
OpenAI表示,协作软件可能永远不会向公众开放,但OpenAI的联合创始人兼首席执行官Sam Altman表示,此类工作证明了与AI智能体的合作可能会在未来带来巨大的利益。
“这对于世界如何运作,如何训练这些事物并使它们同时工作是一个重要的启示,合作是我们对未来世界更积极的愿景之一,人工智能与人类共同努力,使人类变得更美好,更有趣,更有影响力。”
Altman表示,OpenAI可能会继续涉足Dota 2和其他视频游戏,它们是测试AI的良好的平台,也是测量进度的基准工具。但是他认为,对于更广泛的人工智能行业而言,掌握视频游戏可能很快就会过时。
最终,OpenAI希望将其Dota 2学习并扩展到游戏之外的新领域,最终扩展到现实世界。为此,该组织正致力于使用强化学习和其他技术,为机器人手提供更灵巧和人性化的动作。
“OpenAI正在为建立通用人工智能而努力,并与世界分享这些优势,确保它是安全的,我们希望建立一个能够执行任何人类任务的多功能AI系统。我们不光是为了打赢电子游戏,更重要的是揭开通往AGI道路上的秘密。”