谷歌揭示了新的增强现实动画背后的AI技术
2019年03月11日 由 明知不问 发表
525470
0
像YouTube Stories这样的应用程序可以在人脸上叠加动画面具,眼镜和帽子,但它们究竟是如何做到如此真实的?谷歌AI研究部发布的深度研究,使它不再那么神秘。
在博客文章中,公司的工程师用Stories和ARCore的Augmented Faces API的核心技术描述AI技术,这可以模拟光反射,模型面部遮挡,模型镜面反射等等,所有这些都是用一台相机实时进行的。
Artsiom Ablavatski和Ivan Grishchenko解释说,“使这些AR功能成为可能的关键挑战之一是将虚拟内容正确地锚定到现实世界,这一过程需要一套独特的感知技术,才能跨越微笑,皱眉或假笑跟踪具有高度动态的表面几何形状。”
谷歌的增强现实管道,利用TensorFlow Lite,用于硬件加速处理,包括两个神经网络。第一个检测器对相机数据进行操作并计算人脸位置,而第二个三维网格模型使用该位置数据来预测表面几何形状。
为什么采用双模式方法?有两个原因,首先,它大大减少使用合成数据增加数据集的需求,并且它允许AI系统将其大部分容量用于准确预测网格坐标。这两者都对于实现虚拟内容的正确锚定至关重要。
下一步需要使用平滑技术将网格网络应用于单帧摄像机镜头,从而最大限度地减少滞后和噪声。该网格是从裁剪过的视频帧生成的,并在标记过的真实数据上预测坐标,提供3D点位置和人脸出现的概率,并在帧内对齐。
AR管道的最新性能和准确性的改进得益于最新的TensorFlow Lite,它在显著提高性能的同时显着降低了功耗。它们也是工作流程的结果,迭代地引导和细化网格模型的预测,使团队更容易处理具有挑战性的案例,例如鬼脸和倾斜角度,相机缺陷和极端光照条件。
有趣的是,管道不仅仅依赖于一两个模型,相反,它包含一系列旨在支持一系列设备的架构。更轻便的网络需要更少的内存和处理能力,必然使用较低分辨率的输入数据(128 x 128),而最复杂的数学模型将分辨率提高到256 x 256。
根据Ablavatski和Grishchenko的说法,最快的“全网格”模型在Google Pixel 3上推理时间小于10毫秒,而最轻的模型将推理时间降低到每帧3毫秒。它们在iPhone X上的速度要慢一些,但也只是一点点。最轻的型号在大约4毫秒内(使用GPU)进行推理,而全网格需要14毫秒。