全新AI算法玩《蒙特祖玛的复仇》,识别子目标比DeepMind快10倍
2019年02月01日 由 浅浅 发表
15350
0
一种新的算法掌握Atari视频游戏的速度比当前最先进的AI快10倍,并采用突破性的方法解决问题。2015年一项著名的研究显示,DeepMind AI学会了将视频弹球等Atari视频游戏发挥到与人类等同的水平,但它未能完成更复杂的电子游戏蒙特祖玛的复仇(Montezuma's Revenge)。
澳大利亚墨尔本皇家理工大学开发的新算法,自主玩蒙特祖玛的复仇并从错误中学习,识别子目标比谷歌DeepMind快10倍。周五,来自皇家墨尔本理工大学的Fabio Zambetta副教授将在美国第33届AAAI人工智能会议上公布这种新方法。
设计可以协商规划问题的AI,尤其是奖励不是很明显的AI,是推动该领域最重要的研究挑战之一。
该方法是与RMIT的教授John Thangarajah和Michael Dann合作开发的,它将“胡萝卜加大棒式”强化学习与内在激励方法结合起来,奖励AI,使其好奇并探索其环境。
“真正智能的AI需要能够学会在模糊的环境中自主完成任务,”Zambetta说,“正确的算法可以使用更智能的方法来改善结果,而不是纯粹粗暴地在非常强大的计算机上端到端地解决问题。”
研究结果表明我们离自主AI并不遥远,如果我们想在这个领域继续取得实质性进展,这可能是一个关键的研究方向。
Zambetta的方法奖励系统自主探索有用的子目标,例如“攀爬那个阶梯”或“跳过那个坑”,这对于计算机而言,在完成更大任务的背景下可能并不明显。
而其他最先进的系统需要人工输入来识别这些子目标,或者随机决定下一步做什么。
“我们的算法不仅在玩蒙特祖玛的复仇时,自动识别相关任务的速度比DeepMind大约快10倍,它还表现出类似人类的行为,”Zambetta说。
例如,在你可以进入游戏的第二个屏幕之前,你需要确定一些子任务,例如爬梯子,跳过敌人,然后最终拿起钥匙,大致按照这个顺序。这最终会在很长一段时间后随机发生,但在测试中如此自然地发生表明了某种意图。
Zambetta表示,“这使它成为第一个完全自主的面向目标的智能体,与最先进的智能体在这些游戏中竞争。当提供原始视觉输入时,该系统将在视频游戏之外的各种任务中工作。”
创建一个可以完成视频游戏的算法可能听起来微不足道,但一个可以应对歧义的事实,同时从任意数量的可能行动中选择是一个关键的进步。
这意味着,随着时间的推移,这项技术对于实现现实世界的目标非常有价值,无论是在自动驾驶汽车,还是在自然语言识别中。