MIT研究:机器学习系统通过观察几个关键帧中的变化,预测接下来的活动
2018年09月17日 由 浅浅 发表
364035
0
给定几帧视频,人类就可以猜测正在发生的以及将要发生的事情。在本周欧洲计算机视觉会议上发表的一篇论文中,麻省理工学院的研究人员描述了一个附加模块,它可以帮助卷积神经网络(CNN)填补视频帧之间的空白,从而大大提高网络的活动识别能力。
模块被称为Temporal Relation Network(TRN),在不同时间学习视频如何在视频中发生变化。它通过分析描述视频不同阶段的活动的几个关键帧来实现这一点,例如堆叠物体然后让它们倒下。然后,使用相同的过程,它可以识别新视频中的相同类型的活动。
在实验中,该模块在识别数百种基本活动方面表现优于现有模型,例如用手戳物体使其落下,抛掷某些东西,并竖起大拇指。只给出少量的早期帧,它还可以更准确地预测视频中接下来会发生什么。
[video width="1080" height="720" mp4="http://imgcdn.atyun.com/2018/09/How-a-Temporal-Relation-Network-understands-whats-going-on-there.mp4"][/video]
总有一天,该模块可用于帮助机器人更好地了解周围发生的事情。
“我们建立了一个AI系统来识别物体的变形,而不是物体的外观,”Bolei Zhou说,他是计算机科学和人工智能实验室(CSAIL)的博士生,现在是香港中文大学计算机科学的助理教授。“系统不会遍历所有帧,它会拾取关键帧,并使用帧的时间关系识别正在发生的事情。这提高了系统的效率,使其能够准确地实时运行。”
该论文的共同作者是CSAIL首席研究员Antonio Torralba,他也是电气工程和计算机科学系的教授;CSAIL首席研究科学家Aude Oliva;CSAIL研究助理Alex Andonian。
提取关键帧
目前用于活动识别的两个常见CNN模块存在效率和精度缺陷。一个模型是准确的,但必须在进行预测之前分析每个视频帧,这在计算上是昂贵且缓慢的。另一种称为双流网络的类型不太准确但效率更高。它使用一个流来提取一个视频帧的特征,然后将结果与“光流”合并,这是一个关于每个像素移动的提取信息流。光流在提取时也是计算上昂贵的,因此模型仍然不那么有效。
Zhou表示,“我们希望在这两种模型之间起作用,以提高效率和准确性。”
研究人员在三个各种已完成活动的短视频的众包数据集上训练和测试了他们的模块。由TwentyBN公司建造的第一个名为Something-Something的数据集在174个动作类别中拥有超过200000个视频,例如使对象翻倒或举起对象。第二个数据集Jester包含近150000个视频,其中有27种不同的手势,例如竖起大拇指或向左滑动。第三部分是由卡内基梅隆大学研究人员建造的Charades,拥有近10000个视频,共有157项分类活动,如自行车或打篮球。
当给出视频文件时,研究人员的模块同时处理有序帧,分为两组,三组和四组,间隔一段时间。然后,它会快速指定对象在这些帧上的转换与特定活动类匹配的概率。例如,如果它处理两个帧,后面的帧在屏幕底部显示一个对象,而前面的对象显示顶部的对象,它将为活动类指定一个“概率下降”的概率很高。第三帧显示屏幕中间的对象,该概率增加得更多,依此类推。由此,它学习了大多数代表某类活动的帧中的对象变换特征。
认识和预测活动
在测试中,配备新模块的CNN使用两个帧准确识别了许多活动,但通过采样更多帧来提高准确度。对于Jester来说,该模块在活动识别方面达到了95%的准确度,击败了几个现有模型。
它甚至在模糊的分类中猜中了:例如,某些东西包括诸如“假装打开一本书”而不是“打开一本书”之类的行为。为了辨别两者之间的关系,模块只是采样了几个关键帧,例如,在早期的框架中,手靠近一本书,然后放在书上,然后在后面的框架中手从书上移开。
一些其他活动识别模型也处理关键帧,但不考虑帧中的时间关系,这降低了它们的准确性。研究人员报告称,在某些测试中,他们的TRN模块的准确度几乎是这些关键帧模型的两倍。
在给定有限帧的情况下,该模块在预测活动方面也优于模型。在处理了前25%的帧后,模块实现了比基线模型高几个百分点的精度。凭借50%的框架,它的精度提高了10%到40%。示例包括确定纸张将被撕裂一点,基于在早期帧中两只手如何定位在纸张上,以及预测面向前方的凸起的手将向下滑动。
“这对机器人应用非常重要,”Zhou表示,“人们希望在采取具体行动后,机器人能预测发生什么。”
接下来,研究人员旨在提高模块的复杂性。第一步是实现对象识别和活动识别。然后,他们希望增加“直观物理学”,这意味着帮助它理解物体的真实物理属性,“因为我们知道这些视频中的很多物理知识,我们可以训练模块来学习这些物理定律,并用它来识别新视频,我们还开源所有代码和模型。”