人工智能在视频预测方面的进步

2019年11月09日由 TGS 发表 279484 0

视频预测是一种无监督学习，因为要从图像序列中学习到未标注的视频数据结构信息，所以需要对每个像素都进行预测。为了实现好的效果，会使用一些复杂的损失函数。同时视频预测还是一种多模式的问题，因为正确的预测还需要很多视频中未给出的潜在的信息。

传统方法基本对于高分辨率无能为力，因为他们不能处理真实世界的复杂性，但目前的情况却是人工智能和机器学习算法越来越擅长预测视频，例如：准确地预测出一个棒球可能会飞到哪里。

为了进一步提高这种预测能力，密歇根大学、谷歌和Adobe的研究人员提出了一种新颖的方法，通过仅用几帧就能生成高质量视频的大型模型，提高技术水平。新方法与传统的方法不同，它不依赖光流(场景中物体、表面或边缘的明显运动模式)或地标等技术。研究人员在一份描述他们工作的预印本论文中写道：“据我们所知，最大限度地利用标准神经网络的能力，有助于提高预测的准确性。我们这次的研究，是首次对视频预测能力增长的影响进行的彻底调查。”

该团队基线模型建立在现有随机视频生成体系结构的基础上，其中的组件对未来预测的固有不确定性进行了建模。研究人员分别针对为三种预测类别（对象交互、结构化运动和部分可观测性）定制的数据集，对模型的几个版本进行了训练和测试。

首先，研究人员从视频数据库中选择了256个视频，并对视频进行片段截取，然后，将每个模型的输入条件调整为二到五个视频帧之间，并让模型在训练过程中预测未来的五到十帧。在一个低分辨率(64×64像素)的所有任务期间，模型最多可生成25帧。

研究人员报告说：它清晰地描绘了人类的胳膊和腿，并做出了很精确的预测。另外，这些预测看起来非常真实。

文章最后，论文的合著者写道:“我们的研究证实了，在不确定性的情况下(例如，具有未知动作或控制的视频)，循环连接和随机建模的重要性。我们还发现，最大化这些模型的容量，可以提高视频预测的质量。我们希望我们的工作能推进这一领域，在未来朝类似的方向发展，通过不断改进的技术，实现高质量的视频预测。”

标签：

行业视频预测

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇人工智能有望诊断黑色素瘤

下一篇 NVIDIA 发布 Jetson Xavier NX：最小最强的超级计算机，聚焦 AI 边缘计算，售价$399

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）