麻省理工的深度学习新研究
2019年10月12日 由 TGS 发表
931658
0
机器学习有一个分支叫做“深度学习”,它能帮助电脑在医学扫描等定义明确的视觉任务上超越人类。随着这项技术扩展到解读视频和真实世界的领域,它的模型变得越来越大,计算量也越来越大。
据估计,训练一个视频识别模型比训练一个图像分类模型需要多出50倍的数据和8倍的处理能力。随着用于训练深度学习模型处理能力的需求呈指数级增长,以及人们对人工智能巨大碳足迹的担忧与日俱增,在低功耗移动设备上运行大型视频识别模型,成为了一个很大的挑战,许多人工智能应用程序正朝着这个方向发展。
麻省理工学院,电子工程与计算机科学系副教授宋涵,正在通过设计更高效的深度学习模型来解决这个问题。
在国际计算机视觉大会上,宋教授、麻省理工学院研究生季林和麻省理工- Ibm沃森人工智能实验室研究员庄干,在一篇论文中概述了一种缩小视频识别模型的方法,可以加快模型在智能手机和其他移动设备上的性能。他们的方法可以通过将最先进模型中的1.5亿个参数减少到2500万个参数,把模型缩小到原体积的1 / 6。
基础图像和视频识别模型是神经网络,能大致模拟大脑处理信息的方式。无论是数码照片还是视频图像序列,神经网络都会在像素中寻找模式,并为它们看到的东西构建一个抽象的表示。如果有足够多的例子,神经网络就可以“学习”识别人、物体以及两者之间的关系。
目前,顶尖的视频识别模型会使用三维卷积对一系列图像中的时间流逝进行编码,这就产生了更大、计算更密集的模型。为了减少计算量,宋教授和他的同事们设计了一种操作,他们称之为时间移位模块,该模块可以选定视频帧的特征映射转移到相邻帧,然后通过混合过去、现在和未来的空间表示,让模型获得一种时间流逝的感觉,从而避免显式地表示它,这样就解放了很大的计算力。
在最近的公开排名中,新模型在识别Something-Something视频数据集中的行为方面超越了同类模型,移位模块的在线版本也足够灵活,可以实时读取运动,在版本1和版本2中获得了第一名。IBM研究主管DarioGil,在最近由MIT-IBM沃森人工智能实验室主办的人工智能研究周上的开幕词中强调了这项工作,可见其重视程度。