OpenAI和DeepMind的AI智能体在两个Atari游戏中表现优于人类

2018年11月19日 由 浅浅 发表 117710 0
OpenAI和DeepMind的AI智能体在两个Atari游戏中表现优于人类通过观看人类来学习玩游戏的智能体研究又有了新进展。OpenAI和DeepMind在发表的一篇论文“Reward learning from human preferences and demonstrations in Atari”中,描述了一种AI系统,该系统结合了从两种人类反馈中学习的方法:专家演示和轨迹偏好。

他们的深度神经网络与其他神经网络一样,由大脑神经元模拟的数学函数组成,并在9个Atari游戏测试中的两个(Pong和Enduro)中获得了优于人类的表现,并在7个游戏测试中击败了基线模型。

该研究已提交给神经信息处理系统(NIPS 2018),该会议计划于12月的第一周在加拿大蒙特利尔举行。

“为了通过强化学习解决复杂的现实问题,我们不能依赖手动指定的奖励功能,”该团队写道,“相反,我们可以让人类直接向智能体传达目标。”

这是一种在先前的研究中被称为“反向强化学习”的技术,对于那些目标定义不明确、容易使AI系统出错的任务来说,这种技术是有前途的。正如该论文的作者所指出的那样,强化学习系统使用奖励或惩罚来驱动AI智能体实现特定目标,但如果所讨论的目标缺乏反馈机制,那么这种学习就没有多大用处。

由研究人员的AI模型创建的游戏智能体不仅模仿人类行为,因为只是这样它们就不会具有特别的可扩展性,因为它们需要一个人类专家来教他们如何执行特定任务,而且永远不会实现比专家显著更好的性能。

研究人员的系统结合了多种形式的反馈,包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上,它没有假设直接可用的奖励,例如分数增加或游戏内奖金;相反,依靠循环中人类的反馈,它试图通过(1)模仿示范和(2)最大化推断的奖励函数来尽可能接近预期的行为。

该模型由两部分组成:深度Q-Learning网络,即DeepMind在先前的研究中用于实现Atari 2600游戏中的优于人类表现的网络,以及奖励模型,一种卷积神经网络,在任务训练过程中由注释者或合成系统提供的标记进行训练。

智能体随着时间的推移从演示和经验中学到了更多。与此同时,人类专家一直阻止他们利用可能损害绩效的意外奖励来源,这种奖励来源被称为奖励黑客。

在测试中,研究人员在Arcade学习环境中设置AI模型的智能体,这是一个开源框架,用于设计可以玩Atari 2600游戏的AI智能体。研究人员写道,Atari游戏具有“强化学习中最多样化的环境”的优势,并提供“明确的”奖励功能。

经过5000万步和6800个标记的完整训练,在除《私家侦探》(Private Eye)以外的所有游戏测试中(包括Beamride,Breakout,Enduro,Pong,Q*bert,Seaquest),使用研究人员系统训练的智能体都优于模拟学习基线。研究人员发现,研究人员发现,通常情况下,要达到同样的表现水平,人类需要的时间减少了一半。

论文:arxiv.org/pdf/1811.06521.pdf
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消