DeepMind提出了一种训练“安全”强化学习人工智能的新方法

2019年12月16日由 TGS 发表 102271 0

强化学习代理，是一种通过奖励或惩罚机制逐步刺激目标实现的人工智能——它构成了自动驾驶汽车、灵巧机器人和药物发现系统的基础。但是因为它们倾向于探索不熟悉的状态，所以它们会很容易受到所谓的安全探索问题的影响，在这个问题上，他们会变得专注于不安全的状态(比如，一个移动机器人把车开进了沟里)。

为此，Alphabet旗下DeepMind的研究人员在一篇论文中描述了一种奖励建模方法，该方法分两个阶段进行，适用于代理人不知道不安全状态可能在哪里的环境。研究人员表示，他们的方法不仅成功地训练了一个奖励模型，在不访问不安全状态的情况下检测它们，还可以在代理部署之前纠正奖励黑客行为(奖励规范中的漏洞)——甚至是在新的，以及不熟悉的环境中，完成这一机制运行。

DeepMind团队的方法鼓励代理通过两个系统生成的假设行为探索一系列状态：初始状态的生成模型和前向动力学模型，这两个模型都是根据随机轨迹或安全专家演示等数据进行训练的。

一个人类主管用奖励来奖励行为，并且代理人交互地学习政策以最大化他们的奖励。只有当代理成功地学会预测奖励和不安全状态之后，他们才能部署以执行所需的任务。正如研究人员所指出的，关键的想法是，在不与环境直接互动的情况下，对假设的行为从无到有地进行积极的综合，使它们尽可能地提供信息。

DeepMind团队称其为“通过轨迹优化的奖励查询合成”，或者“请求”，并解释说它总共产生了四种类型的假设行为。第一种类型最大化了奖励模型集合的不确定性，而第二种和第三种类型最大化了预期奖励(为具有最高信息价值的行为获取标签)并最小化预期奖励(为奖励模型可能错误预测的行为提供解释)。对于第四类行为，它最大化了轨迹的新颖性，从而鼓励探索而不考虑预测的奖励。

最后，一旦奖励模型达到一个令人满意的状态，就会部署一个基于计划的代理——该代理利用模型预测控制来选择为学习奖励优化的操作。与通过尝试和错误学习的无模型强化学习算法不同，这种MPC使代理通过使用动态模型来预测动作的后果来避免不安全状态。

论文最后，论文合著者们表示：“据我们所知，ReQueST是第一个安全学习不安全状态和尺度的奖励建模算法，用于在高维连续状态的环境中训练神经网络奖励模型。到目前为止，我们只证明了在相对简单的动态模拟域中请求的有效性。未来工作的一个方向是，用更真实的物理和环境中的其他代理，在3D领域测试请求。”

标签：

行业 DeepMind

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇深度神经网络与人类感知的区别

下一篇 Facebook的DEC AI发现了数亿个伪造账户

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）