AI系统可以估算常规2D图像的6D姿态
2018年09月13日 由 浅浅 发表
860233
0
来自NVIDIA的研究人员以及来自学术界的合作者开发了一种基于深度学习的系统,该系统可以从标准2D彩色图像中以极高的精度执行6D物体姿态估计。
在机器人技术中,机器人手臂需要知道位置和方向,以便成功检测并移动其附近的物体。这使得机器人能够与人类一起安全有效地操作。对场景中物体的位置和方向的认识有时被称为6D,其中D代表自由度姿态。
“我们的方法明显优于仅使用彩色图像的最先进的6D姿态估计方法。我们的方法的性能已经接近于使用深度图像进行姿态细化的方法,例如使用迭代最近点算法,”研究人员在他们的论文中说。
在DGX站点上使用NVIDIA Tesla V100 GPUs,使用cudnn加速MXNet框架,该团队在LINEMOD数据集上的数千张图像上训练了他们的系统。
“对于每张图像,我们在地面实况的基础产生10个随机姿态,为训练集中的每个物体生成2000个训练样本,”该团队表示,“此外,我们为每个物体生成10000个合成图像,其中姿势分布与真实训练集类似。因此,我们在训练中每个对象共有12000个训练样本。”
DeepIM使用FlowNetSimple主干来预测相对变换,以匹配对象的观察和渲染图像。额外的掩码和流量损失提高了训练期间的稳定性。
一旦经过训练,神经网络就会自动学习匹配2D彩色图像中物体的姿势。然后神经网络输出可以应用于初始姿势的相对姿态变换,这改善了6D姿态估计。
为了推论,研究人员使用NVIDIA GeForce GTX 1080 Ti GPU。
“这项工作为未来的研究开辟了各种方向。例如,我们希望DeepIM的立体声版本可以进一步提高姿态的准确性。此外,DeepIM指出,仅使用彩色图像就可以生成准确的6D姿态估计,从而可以使用以高帧率捕获高分辨率图像并具有大视野的摄像机,从而为机器人操作等应用提供有用的估计。”
该团队由来自清华大学,华盛顿大学和NVIDIA的研究人员组成,本周将在德国慕尼黑的ECCV上展示他们的研究成果。
论文:
arxiv.org/pdf/1804.00175.pdf
更多图像识别数据集点击下载:
图像识别数据集下载