Facebook的慢速视频分类器AI

2019年11月05日 由 TGS 发表 231237 0
灵长类动物的视网膜神经节细胞能从感光器接收视觉信息,然后再传递到大脑,但值得注意的是,并不是所有的眼部细胞都具备这种精密的能力,科学家通过测试发现,80%的细胞只能在低频率下工作并识别出细微的细节,剩下的20%才能对快速的变化做出反应。

这种生物学上的二分法激发了Facebook人工智能研究的科学家们去追求他们所说的“慢速AI”。他们研发出了一个框架,是PyTorch框架的一个实现,名为SlowFast,可以在GitHub上使用,同时也可以使用经过训练的模型。这是一种用于视频识别的机器学习架构,他们声称,在动作分类和镜头检测方面都拥有“强大的性能”。

研究小组在一篇预印本论文中指出,慢速运动在统计上比快速运动更加常见,而且对颜色、纹理和灯光等语义的识别可以在不影响准确性的情况下缓慢刷新。另一方面,它们比主体标识发展得更快,能够在高时间分辨率下,分析已执行的动作。

“慢速”的作用有两种实现方式,其中一种以较低的帧速率和较慢的刷新速度运行,优化捕捉少量图像或稀疏帧给出的信息。另一种途径则以快速刷新速度和高时间分辨率,捕捉快速变化的运动。

研究人员断言,通过以不同的时间速率处理原始视频,较慢的路径更善于识别框架中不变或者变化缓慢的静态区域,而较快的路径则可以学会准确地推断动态区域中的操作。这两条通路的信息被融合后,用快速通路的数据,通过网络的横向连接进入慢速通路,可以使慢速路径能够感知来自快速路径的结果,并将其送到一个分类层中。

为了评估SlowFast的性能,该团队在两个流行的数据集上测试了该模型,这两个模型分别是:DeepMind的Kinetics-400和谷歌的AVA。

前者包括成千上万个YouTube上的10秒短视频,其中至少400个视频中包含了不同类别的人类行为。AVA则拥有430个带注释的15分钟YouTube视频和80个带注释的视觉动作。

SlowFast在这两个数据集上都获得了历史最佳成绩,并实现了28.3的mAP平均精度中值,研究人员在论文最后写道:“我们希望这一‘慢速’概念能促进视频识别的进一步研究……我们已经证明,通过减少通道容量,快速通道可以变得非常轻,同时还可以学习有用的视频识别时间信息。时间轴是一个特殊的维度,这篇论文主要就是对比沿着这条轴线的速度,研究了一个建筑型设计。”
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消