全新AI算法玩《蒙特祖玛的复仇》，识别子目标比DeepMind快10倍

2019年02月01日由浅浅发表 15577 0

一种新的算法掌握Atari视频游戏的速度比当前最先进的AI快10倍，并采用突破性的方法解决问题。2015年一项著名的研究显示，DeepMind AI学会了将视频弹球等Atari视频游戏发挥到与人类等同的水平，但它未能完成更复杂的电子游戏蒙特祖玛的复仇（Montezuma's Revenge）。

澳大利亚墨尔本皇家理工大学开发的新算法，自主玩蒙特祖玛的复仇并从错误中学习，识别子目标比谷歌DeepMind快10倍。周五，来自皇家墨尔本理工大学的Fabio Zambetta副教授将在美国第33届AAAI人工智能会议上公布这种新方法。

设计可以协商规划问题的AI，尤其是奖励不是很明显的AI，是推动该领域最重要的研究挑战之一。

该方法是与RMIT的教授John Thangarajah和Michael Dann合作开发的，它将“胡萝卜加大棒式”强化学习与内在激励方法结合起来，奖励AI，使其好奇并探索其环境。

“真正智能的AI需要能够学会在模糊的环境中自主完成任务，”Zambetta说，“正确的算法可以使用更智能的方法来改善结果，而不是纯粹粗暴地在非常强大的计算机上端到端地解决问题。”

研究结果表明我们离自主AI并不遥远，如果我们想在这个领域继续取得实质性进展，这可能是一个关键的研究方向。

Zambetta的方法奖励系统自主探索有用的子目标，例如“攀爬那个阶梯”或“跳过那个坑”，这对于计算机而言，在完成更大任务的背景下可能并不明显。

而其他最先进的系统需要人工输入来识别这些子目标，或者随机决定下一步做什么。

“我们的算法不仅在玩蒙特祖玛的复仇时，自动识别相关任务的速度比DeepMind大约快10倍，它还表现出类似人类的行为，”Zambetta说。

例如，在你可以进入游戏的第二个屏幕之前，你需要确定一些子任务，例如爬梯子，跳过敌人，然后最终拿起钥匙，大致按照这个顺序。这最终会在很长一段时间后随机发生，但在测试中如此自然地发生表明了某种意图。

Zambetta表示，“这使它成为第一个完全自主的面向目标的智能体，与最先进的智能体在这些游戏中竞争。当提供原始视觉输入时，该系统将在视频游戏之外的各种任务中工作。”

创建一个可以完成视频游戏的算法可能听起来微不足道，但一个可以应对歧义的事实，同时从任意数量的可能行动中选择是一个关键的进步。

这意味着，随着时间的推移，这项技术对于实现现实世界的目标非常有价值，无论是在自动驾驶汽车，还是在自然语言识别中。

标签：

行业 DeepMind AI算法

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇斯坦福全新NLP工具包StanfordNLP发布，支持53种语言

下一篇苹果接连封杀Facebook、谷歌：私下收集用户隐私数据

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）