谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

2018年06月29日 由 浅浅 发表 636628 0
谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

机器人如何获得能够有效推广到各种真实世界的物体和环境的技能?设计能够在受控环境中有效执行重复性任务的机器人系统(例如在装配线上构建产品)是相当常规的,设计能够观察周围环境并决定最佳行动方案的机器人,同时对意想不到的结果做出反应是非常困难的。然而,有两种工具可以帮助机器人从经验中获得这样的技能:深度学习,它在处理非结构化的现实场景和强化学习方面非常出色;强化学习,能够进行更长期的推理,同时展现更复杂和更强大的顺序决策。结合这两种技术有可能使机器人从他们的经验中不断学习,使他们能够使用数据而不是手动工程来掌握基本的感觉运动技能。

设计用于机器人学习的强化学习算法引入了它自己的一系列挑战:真实世界的对象具有各种各样的视觉和物理属性,接触力的细微差别可能会使对象运动难以预测,并且感兴趣的对象也可能会被阻挡。此外,机器人传感器本身具有噪声,增加了其复杂性。所有这些因素使得学习一个通用解决方案变得非常困难,除非训练数据中有足够的多样性,这需要时间来收集。这激发了探索学习算法,可以有效地重复使用过去的经验,类似于我们以前的工作从抓大数据集中受益。然而,这项前期工作无法推断其行为的长期后果,而这些对学习如何抓取很重要。例如,如果多个对象聚集在一起,将其中一个分开(称为“分割”)将使得抓取更容易,即使这样做并不直接导致成功。

谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96% 谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

分割示例


为了提高效率,我们需要使用off-policy强化学习,可以从数小时,数天或数周前收集的数据中学习。为了设计这种可以从过去交互中获得大量不同经验的off-policy强化学习算法,我们将大规模分布式优化与我们称之为QT-Opt的新型拟合深度Q学习算法相结合。

QT-Opt是一种分布式Q学习算法,支持连续动作空间,非常适合机器人问题。要使用QT-Opt,我们首先使用我们已收集的任何数据,完全脱机地训练模型。这并不需要运行真实的机器人,使其更容易扩展。然后,我们在真实机器人上部署和微调该模型,并对新收集的数据进一步进行训练。当我们运行QT-Opt时,我们积累了更多的离线数据,让我们训练出更好的模型,收集更好的数据,等等。

为了将这种方法应用于机器人抓取,我们使用了7个真实世界中的机器人,为了引导收集,我们从手动设计的策略开始,15-30%的成功率。当数据收集开始表现更好时,切换到学习模型。该政策拍摄图像并返回手臂和手爪应移动的方式。离线数据包含了超过1000个不同的对象。

过去,在机器人之间分享的经验可以加速学习。我们将这次训练和数据收集过程扩展到10个GPU,7个机器人和许多CPU,使我们能够收集和处理超过580000次抓取尝试的大型数据集。在这个过程的最后,我们成功地训练了一个真实世界机器使用抓握策略,并将其推广到一系列在训练时未见过的具有挑战性的对象。

从量化角度来看,QT-Opt方法在700次试验中抓住之前未见过的物体成功率为96%。而之前的基于监督学习的抓取方法成功率为78%,我们的方法将错误率降低了五倍以上。

谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

在评估时使用的对象。为了使这个任务具有挑战性,使用各种大小、纹理和形状的物体。

值得注意的是,该策略展现了各种闭环,被动行为,这些行为在标准机器人抓取系统中通常不会出现:

  • 当呈现一组无法一起拾起的联锁块时,该策略将其中一个块与其余块分开,然后再拾取它。

  • 当提出一个难以抓握的对象时,策略会指出它应该重新定位抓手,并重新抓它,直到抓住为止。

  • 当在杂物中抓东西时,直到手指牢牢地抓住其中一个物体之前,会探测不同的物体。

  • 当我们通过有意识地将物体从抓手上取下来时(它在训练期间没有见过的东西)或扰乱机器人时,它会自动重新定位抓手以进行另一次尝试。


至关重要的是,这些行为都不是手动设计的。他们从QT-Opt的自我监督培训中自动出现,因为他们提高了模型的长期抓取成功率。

谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

谷歌:深度学习算法QT-Opt应用于机器人抓取,成功率高达96%

学习行为的例子。在上图中,策略修正了移动的球。下图中,策略会尝试几次抓握,直到它成功找到这个棘手的物体。

此外,我们发现QT-Opt使用较少的训练数据达到了较高的成功率,尽管会聚时间较长。这对于机器人技术来说尤其令人兴奋,因为瓶颈通常是收集真实的机器人数据,而不是训练时间。将其与其他数据效率技术(例如我们之前关于领域适应的抓取工作)结合起来,可能会为机器人技术打开几条有趣的途径。我们也有兴趣将QT-Opt与最近的学习如何自我校准的工作结合起来,这可以进一步提高通用性。

总的来说,QT-Opt算法是一种通用的强化学习方法,它在真实世界机器人上给我们提供了很好的结果。除了奖励定义之外,关于QT-Opt的任何内容都不是针对机器人抓取的。我们认为这是向更一般的机器人学习算法迈出的重要一步,并且可以将它应用到其他机器人任务中。

[video width="1280" height="720" mp4="http://imgcdn.atyun.com/2018/06/QT-Opt_-Scalable-Deep-Reinforcement-Learning-for-Vision-Based-Robotic-Manipulation.mp4"][/video]

论文网址:arxiv.org/abs/1806.10293
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消