人工智能在视频预测方面的进步
2019年11月09日 由 TGS 发表
279320
0
视频预测是一种无监督学习,因为要从图像序列中学习到未标注的视频数据结构信息,所以需要对每个像素都进行预测。为了实现好的效果,会使用一些复杂的损失函数。同时视频预测还是一种多模式的问题,因为正确的预测还需要很多视频中未给出的潜在的信息。
传统方法基本对于高分辨率无能为力,因为他们不能处理真实世界的复杂性,但目前的情况却是人工智能和机器学习算法越来越擅长预测视频,例如:准确地预测出一个棒球可能会飞到哪里。
为了进一步提高这种预测能力,密歇根大学、谷歌和Adobe的研究人员提出了一种新颖的方法,通过仅用几帧就能生成高质量视频的大型模型,提高技术水平。新方法与传统的方法不同,它不依赖光流(场景中物体、表面或边缘的明显运动模式)或地标等技术。研究人员在一份描述他们工作的预印本论文中写道:“据我们所知,最大限度地利用标准神经网络的能力,有助于提高预测的准确性。我们这次的研究,是首次对视频预测能力增长的影响进行的彻底调查。”
该团队基线模型建立在现有随机视频生成体系结构的基础上,其中的组件对未来预测的固有不确定性进行了建模。研究人员分别针对为三种预测类别(对象交互、结构化运动和部分可观测性)定制的数据集,对模型的几个版本进行了训练和测试。
首先,研究人员从视频数据库中选择了256个视频,并对视频进行片段截取,然后,将每个模型的输入条件调整为二到五个视频帧之间,并让模型在训练过程中预测未来的五到十帧。在一个低分辨率(64×64像素)的所有任务期间,模型最多可生成25帧。
研究人员报告说:它清晰地描绘了人类的胳膊和腿,并做出了很精确的预测。另外,这些预测看起来非常真实。
文章最后,论文的合著者写道:“我们的研究证实了,在不确定性的情况下(例如,具有未知动作或控制的视频),循环连接和随机建模的重要性。我们还发现,最大化这些模型的容量,可以提高视频预测的质量。我们希望我们的工作能推进这一领域,在未来朝类似的方向发展,通过不断改进的技术,实现高质量的视频预测。”