谷歌：深度学习算法QT-Opt应用于机器人抓取，成功率高达96%

2018年06月29日由浅浅发表 636678 0

机器人如何获得能够有效推广到各种真实世界的物体和环境的技能？设计能够在受控环境中有效执行重复性任务的机器人系统（例如在装配线上构建产品）是相当常规的，设计能够观察周围环境并决定最佳行动方案的机器人，同时对意想不到的结果做出反应是非常困难的。然而，有两种工具可以帮助机器人从经验中获得这样的技能：深度学习，它在处理非结构化的现实场景和强化学习方面非常出色；强化学习，能够进行更长期的推理，同时展现更复杂和更强大的顺序决策。结合这两种技术有可能使机器人从他们的经验中不断学习，使他们能够使用数据而不是手动工程来掌握基本的感觉运动技能。

设计用于机器人学习的强化学习算法引入了它自己的一系列挑战：真实世界的对象具有各种各样的视觉和物理属性，接触力的细微差别可能会使对象运动难以预测，并且感兴趣的对象也可能会被阻挡。此外，机器人传感器本身具有噪声，增加了其复杂性。所有这些因素使得学习一个通用解决方案变得非常困难，除非训练数据中有足够的多样性，这需要时间来收集。这激发了探索学习算法，可以有效地重复使用过去的经验，类似于我们以前的工作从抓大数据集中受益。然而，这项前期工作无法推断其行为的长期后果，而这些对学习如何抓取很重要。例如，如果多个对象聚集在一起，将其中一个分开（称为“分割”）将使得抓取更容易，即使这样做并不直接导致成功。

谷歌：深度学习算法QT-Opt应用于机器人抓取，成功率高达96%

分割示例

为了提高效率，我们需要使用off-policy强化学习，可以从数小时，数天或数周前收集的数据中学习。为了设计这种可以从过去交互中获得大量不同经验的off-policy强化学习算法，我们将大规模分布式优化与我们称之为QT-Opt的新型拟合深度Q学习算法相结合。

QT-Opt是一种分布式Q学习算法，支持连续动作空间，非常适合机器人问题。要使用QT-Opt，我们首先使用我们已收集的任何数据，完全脱机地训练模型。这并不需要运行真实的机器人，使其更容易扩展。然后，我们在真实机器人上部署和微调该模型，并对新收集的数据进一步进行训练。当我们运行QT-Opt时，我们积累了更多的离线数据，让我们训练出更好的模型，收集更好的数据，等等。

为了将这种方法应用于机器人抓取，我们使用了7个真实世界中的机器人，为了引导收集，我们从手动设计的策略开始，15-30％的成功率。当数据收集开始表现更好时，切换到学习模型。该政策拍摄图像并返回手臂和手爪应移动的方式。离线数据包含了超过1000个不同的对象。

过去，在机器人之间分享的经验可以加速学习。我们将这次训练和数据收集过程扩展到10个GPU，7个机器人和许多CPU，使我们能够收集和处理超过580000次抓取尝试的大型数据集。在这个过程的最后，我们成功地训练了一个真实世界机器使用抓握策略，并将其推广到一系列在训练时未见过的具有挑战性的对象。

从量化角度来看，QT-Opt方法在700次试验中抓住之前未见过的物体成功率为96％。而之前的基于监督学习的抓取方法成功率为78％，我们的方法将错误率降低了五倍以上。

谷歌：深度学习算法QT-Opt应用于机器人抓取，成功率高达96%

在评估时使用的对象。为了使这个任务具有挑战性，使用各种大小、纹理和形状的物体。

值得注意的是，该策略展现了各种闭环，被动行为，这些行为在标准机器人抓取系统中通常不会出现：

当呈现一组无法一起拾起的联锁块时，该策略将其中一个块与其余块分开，然后再拾取它。

当提出一个难以抓握的对象时，策略会指出它应该重新定位抓手，并重新抓它，直到抓住为止。

当在杂物中抓东西时，直到手指牢牢地抓住其中一个物体之前，会探测不同的物体。

当我们通过有意识地将物体从抓手上取下来时（它在训练期间没有见过的东西）或扰乱机器人时，它会自动重新定位抓手以进行另一次尝试。

至关重要的是，这些行为都不是手动设计的。他们从QT-Opt的自我监督培训中自动出现，因为他们提高了模型的长期抓取成功率。

谷歌：深度学习算法QT-Opt应用于机器人抓取，成功率高达96%

学习行为的例子。在上图中，策略修正了移动的球。下图中，策略会尝试几次抓握，直到它成功找到这个棘手的物体。

此外，我们发现QT-Opt使用较少的训练数据达到了较高的成功率，尽管会聚时间较长。这对于机器人技术来说尤其令人兴奋，因为瓶颈通常是收集真实的机器人数据，而不是训练时间。将其与其他数据效率技术（例如我们之前关于领域适应的抓取工作）结合起来，可能会为机器人技术打开几条有趣的途径。我们也有兴趣将QT-Opt与最近的学习如何自我校准的工作结合起来，这可以进一步提高通用性。

总的来说，QT-Opt算法是一种通用的强化学习方法，它在真实世界机器人上给我们提供了很好的结果。除了奖励定义之外，关于QT-Opt的任何内容都不是针对机器人抓取的。我们认为这是向更一般的机器人学习算法迈出的重要一步，并且可以将它应用到其他机器人任务中。

[video width="1280" height="720" mp4="http://imgcdn.atyun.com/2018/06/QT-Opt_-Scalable-Deep-Reinforcement-Learning-for-Vision-Based-Robotic-Manipulation.mp4"][/video]

论文网址：arxiv.org/abs/1806.10293

标签：

机器人算法深度学习

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇迪士尼Stuntronics机器人像超级英雄一样在高空表演疯狂的特技

下一篇 UC Berkeley和CMU研究：双足机器人在离散地形上移动

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）