DeepMind通过夺旗游戏训练AI进行团队合作,胜率超过人类

2018年07月04日 由 浅浅 发表 307430 0
DeepMind通过夺旗游戏训练AI进行团队合作
谷歌的DeepMind今天分享了研究和实验的结果,其中多个人工智能系统经过训练,可以在Quake III Arena中玩夺旗(Capture the Flag),这是一款多人第一人称射击游戏。在这个过程中受过训练的AI现在比游戏中的大多数人类玩家更好,无论它是与人类还是机器队友一起玩。

名为For the Win(FTW)的人工智能玩了近45万场Quake III Arena游戏,以获得其对人类玩家的统治地位,并理解如何有效地与其他机器和人类合作。DeepMind指的是训练多个独立的操作智能体,作为多代理学习的实践采取集体行动。

该公司在博客文章中说:“我们训练能够学习并充当个人的智能体,但必须能够与任何其他智能体或人类进行团队合作。从多智能体的角度来看,夺旗需要成员成功地与队友合作并与对方球队竞争,同时保持他们可能遇到的任何比赛风格。”

以前一些关于视频游戏和强化学习的研究主要集中在有少数玩家的环境中,而DeepMind的实验涉及30个智能体同时对抗四场比赛中的人类或机器。

在与40名人类夺旗玩家的比赛中,机器的团队在对抗人类的比赛中获胜,并且有95%的机会赢得人类与机器合作的团队。

平均而言,人机团队每场比赛的旗帜比两支FTW智能体队伍少了16个。

在标记中发现智能体比人类有效,与人类相比,它们实现了80%的策略,而人类仅为48%。即使FTW的标记能力被压制到与人类相当的水平,FTW仍保持其优势。

有趣的是,对人类参与者的一项调查发现,FTW比人类队友更具协作性。

该研究的作者包括DeepMind创始人兼首席执行官Demis Hassabis。此外,研究进行了一些独特的挑战。

夺旗在具有随机地图布局中进行的,而不是静态一致的环境,以便训练系统对更好结果的理解。此外,还介绍了平坦地形的室内环境和不同海拔的室外环境。智能体也以慢速或快速模式运营,并开发了自己的内部奖励系统。

用于教授智能体的唯一信号是团队是否通过在五分钟内捕获最多的旗帜来赢得比赛。

[video width="1280" height="720" mp4="http://imgcdn.atyun.com/2018/07/Capture-the-Flag_-FTW-agents-training-progression.mp4"][/video]

事先没有给机器制定游戏规则,但随着时间的推移,FTW学会了基本的策略,如基地防守,跟随队友,或者在对手的基地露营以在捕获旗帜后标记它们。

标记,触摸对手将其发送回其复活点的行为,也被纳入用于赢得比赛的战术中。

DeepMind的这项研究是人工智能研究人员最新的一项研究,目的是将强化学习应用于视频游戏,以此来训练机器策略、记忆或其他人类常见的特征,但这些特征在计算机中并不会自然发生。

上个月,OpenAI透露,它使用强化学习来训练人工智能,以击败人类玩Dota 2的人才队伍。

可以从多代理环境中获取的见解可用于通知人机交互并训练AI系统相互补充或协作。

例如,作为DARPA终身学习机研究计划的一部分,SRI International正在培训人工智能系统,以扮演角色扮演游戏“StarCraft: Remastered”,以便训练它们在游戏中采取集体行动或团队形式。

DeepMind在StarCraft中也发现了很多有价值的东西。8月,作为与暴雪合作的一部分,DeepMind宣布发布用于强化学习的StarCraft II API。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消