DeepMind将多维数据集堆叠技能从模拟状态转移到真实状态
2019年10月23日 由 KING 发表
901389
0
教机器人手臂堆积木的最简单方法是什么?在最近的一项研究中,DeepMind的研究人员一直在思考一个微妙的问题:AI解决问题的方法总是需要大量数据,而机器人技术很难获得这些数据。即使有足够的数据来训练机器学习模型,但如果没有人工注释,它几乎是无用的。
不过,DeepMind的科学家从模拟环境的观察学习系统(MuJoCo)中找到了解决问题的方法,并将其学习成果转移到了现实世界中。在一份介绍他们研究的论文中,他们表示这种方法仅用五个小时的机器人数据就可以堆叠多维数据集。上周,OpenAI发表了一篇相关论文,该论文研究了将技能从模拟状态的机器人转移到现实世界中机器人的方法,以解决Rubik的多维数据集任务。但是,与采用复杂的机械手进行物体操纵的研究不同,DeepMind团队使用了基本的Sawyer抓手。
该小组提出了两步适应程序。首先,使用模拟环境来学习一种策略,该策略可以通过合成图像和本体感知(位置和运动的感知)来解决多维数据集堆叠任务。两个智能体(可访问模拟器状态的状态智能体和使用原始像素观测值的视觉智能体)同时进行训练,状态智能体提供了用于增强学习视觉智能体的数据。
第二步,未标记的真实图像序列有助于使状态表示成真实域,从而提供适用于仿真和现实的通用目标。研究人员说,它利用受过模拟训练的机器人收集的未标记数据,减轻了模拟机器人与真实机器人之间差距的负面影响。在实验中,研究人员报告说,他们的“从模拟到真实”的转移学习方法比领域随机化和其他自我监督的适应技术有了明显的改善。平均而言,它成功地将多维数据集堆叠了62%,远好于基线的12%的成功率。
该论文的合著者写道:“我们的代理商从视觉上与现实世界互动,这使我们的方法适用于大量的操纵任务。多维数据集堆叠任务强调了长距离操纵任务的通用方法。最重要的是,它能够更好地利用可用的未标记真实世界数据,从而提高堆叠性能。”