OpenAI概念学习新模型:基于能量,可快速学会识别和生成概念的实例
2018年11月09日 由 浅浅 发表
451714
0
OpenAI开发了一种基于能量的模型,可以快速学会识别和生成概念的实例,例如附近,上,中,最近和最远等,并表示为2D点集。模型仅在五次演示后学习了这些概念。此外还展示了跨域转移:使用在二维粒子环境中学习的概念来解决基于三维物理的机器人的任务。
人类智能的许多标志,例如从有限的经验,抽象推理和规划,类比推理,创造性问题解决和语言能力的概括,需要能够将经验整合到概念中,概念作为理解和推理的基本构建块。我们的技术使智能体能够从任务中学习和提取概念,然后使用这些概念来解决各个领域中的其他任务。例如,模型可以使用在二维粒子环境中学习的概念,让它在基于三维物理的机器人环境中执行相同的任务,而无需在新环境中重新训练。
[video width="1776" height="992" mp4="http://imgcdn.atyun.com/2018/11/fetch-between.mp4"][/video]
通过基于能量的模型训练的模拟机器人,使用在不同2D域中学习的概念,将手臂导航到两点之间。
这项工作使用能量函数让我们的智能体学习分类和生成简单的概念,他们可以用它们来解决在不同环境中的两点之间导航等任务。概念的示例包括视觉概念(“红色”或“方形”),空间(“内部”,“在...之上”),时间(“慢”,“之后”),社交概念(“积极”,“有用”)等。这些概念一旦被学习,就会成为代理人理解和推理的基本构建块,正如DeepMind和Vicarious的其他研究。
能量函数让我们构建可以生成(左)并识别(右)基本概念的系统,如方形的概念。
能量函数通过对世界状态的偏好进行编码来工作,这允许具有不同可用动作的智能体(改变扭矩与直接改变位置)学习在不同环境中起作用的策略,这大致转化为对简单事物概念理解的发展。
怎么运作
为了创建能量函数,我们在数学上将概念表示为能量模型。能量模型的思想植根于物理学,直觉观察到事件和状态代表低能量配置。
我们根据以下方面定义每个概念的能量函数E(x,a,w):
- 模型观察的世界状况(x)
- 该状态下实体的注意力掩膜(a)。
- 用作条件的连续值向量(w),指定计算能量的概念
世界各国由多组实体及其属性和位置组成(如下面的点,它们具有位置和颜色属性)。用于“识别”的注意掩膜表示模型对某些实体集的关注。
能量模型输出单个正数,指示概念是否满足(当能量为零时)或不满足(当能量高时)。当注意掩膜集中在表示概念的一组实体上时,即满足概念,这需要实体处于正确的位置(修改x或生成概念)并且注意力掩膜关注正确的实体(修改a,或识别概念)。
我们将能量函数构建为基于关系网络体系结构的神经网络,允许它将任意数量的实体作为输入。这个能量函数的参数是我们的训练程序优化的;其他函数是从能量函数中隐式导出的。
这种方法让我们使用能量函数来学习可以执行生成和识别的单个网络。这使我们能够交叉使用从生成到识别的学习概念,反之亦然(注意:目前已经通过镜像神经元在动物身上观察到这种效应)。
单一网络训练
训练数据由(注意掩膜,状态)的轨迹组成,我们提前生成的轨迹用于我们希望模型学习的特定概念。我们通过为给定的概念集提供一组演示(通常为5)来训练我们的模型,然后给它一个新的环境(X0)并要求它预测下一个状态(X1)和下一个注意掩码(a)。我们优化能量函数,使得在训练数据中找到的下一个状态和下一个注意力掩模被分配低能量值。与变分自动编码器等生成模型类似,该模型被激励学习有用地压缩任务方面的值。我们使用各种概念来训练我们的模型,包括视觉,空间,近端和时间关系,以及二维粒子环境中的量化。
[video width="900" height="300" mp4="http://imgcdn.atyun.com/2018/11/square-circle-2-best.mp4"][/video]
空间区域概念:给出示范2D点(左),推断点上放置的能量函数(中间),然后使用能量上的随机梯度下降来生成新点(右)
主要结果
我们在一系列任务中评估了我们的方法,旨在了解我们的单一系统如何通过相同的概念识别和生成统一的东西,我们的系统可以学习分类和生成特定的空间关系集,或者可以以特定方式通过场景导航实体,或者可以对诸如数量(一个,两个,三个或三个以上)或接近度等概念进行良好的判断。
[video width="1200" height="600" mp4="http://imgcdn.atyun.com/2018/11/quantity.mp4"][/video]
数量概念:示范注意力放在一个,两个,三个或三个以上的实体上。推断用于生成类似数量的注意掩模
模型在学习生成概念(通过在状态向量x中移动实体)和识别它们(通过在固定状态向量上更改注意掩码)之间分享经验时表现更好:当我们评估在这两个操作上训练的模型时,它们在每次单独操作上的表现都比仅在单一操作上训练的模型更好。我们还发现了转移学习的迹象- 只有在识别环境中训练的能量函数才能很好地生成,即使没有经过明确的训练也是如此。
前景
在未来,我们很高兴能够探索在更丰富的三维环境中学到的更广泛的概念,将概念与智能体的决策策略相结合(到目前为止,我们只将概念视为从被动体验中学到的东西),并探索概念和语言理解之间的联系。