OpenAI和DeepMind的AI智能体在两个Atari游戏中表现优于人类
2018年11月19日 由 浅浅 发表
117713
0
通过观看人类来学习玩游戏的智能体研究又有了新进展。OpenAI和DeepMind在发表的一篇论文“Reward learning from human preferences and demonstrations in Atari”中,描述了一种AI系统,该系统结合了从两种人类反馈中学习的方法:专家演示和轨迹偏好。
他们的深度神经网络与其他神经网络一样,由大脑神经元模拟的数学函数组成,并在9个Atari游戏测试中的两个(Pong和Enduro)中获得了优于人类的表现,并在7个游戏测试中击败了基线模型。
该研究已提交给神经信息处理系统(NIPS 2018),该会议计划于12月的第一周在加拿大蒙特利尔举行。
“为了通过强化学习解决复杂的现实问题,我们不能依赖手动指定的奖励功能,”该团队写道,“相反,我们可以让人类直接向智能体传达目标。”
这是一种在先前的研究中被称为“反向强化学习”的技术,对于那些目标定义不明确、容易使AI系统出错的任务来说,这种技术是有前途的。正如该论文的作者所指出的那样,强化学习系统使用奖励或惩罚来驱动AI智能体实现特定目标,但如果所讨论的目标缺乏反馈机制,那么这种学习就没有多大用处。
由研究人员的AI模型创建的游戏智能体不仅模仿人类行为,因为只是这样它们就不会具有特别的可扩展性,因为它们需要一个人类专家来教他们如何执行特定任务,而且永远不会实现比专家显著更好的性能。
研究人员的系统结合了多种形式的反馈,包括来自专家演示的模仿学习和使用轨迹偏好的奖励模型。基本上,它没有假设直接可用的奖励,例如分数增加或游戏内奖金;相反,依靠循环中人类的反馈,它试图通过(1)模仿示范和(2)最大化推断的奖励函数来尽可能接近预期的行为。
该模型由两部分组成:深度Q-Learning网络,即DeepMind在先前的研究中用于实现Atari 2600游戏中的优于人类表现的网络,以及奖励模型,一种卷积神经网络,在任务训练过程中由注释者或合成系统提供的标记进行训练。
智能体随着时间的推移从演示和经验中学到了更多。与此同时,人类专家一直阻止他们利用可能损害绩效的意外奖励来源,这种奖励来源被称为奖励黑客。
在测试中,研究人员在Arcade学习环境中设置AI模型的智能体,这是一个开源框架,用于设计可以玩Atari 2600游戏的AI智能体。研究人员写道,Atari游戏具有“强化学习中最多样化的环境”的优势,并提供“明确的”奖励功能。
经过5000万步和6800个标记的完整训练,在除《私家侦探》(Private Eye)以外的所有游戏测试中(包括Beamride,Breakout,Enduro,Pong,Q*bert,Seaquest),使用研究人员系统训练的智能体都优于模拟学习基线。研究人员发现,研究人员发现,通常情况下,要达到同样的表现水平,人类需要的时间减少了一半。
论文:arxiv.org/pdf/1811.06521.pdf