Facebook创建了VideoStory数据集,训练AI将视频转化为故事
2018年11月01日 由 浅浅 发表
850400
0
视频是社交媒体的命脉,仅Facebook的视频每天平均观看次数就超过80亿次,每天观看时间超过1亿小时,此外,超过45%的人表示他们每周观看超过一小时的Facebook或YouTube视频。
但是,视频的问题在于它具有排他性,残疾人或不能熟练使用互联网的人无法轻易参与其中。考虑到这一点,Facebook的研究人员创建了VideoStory,这是一个新的视频描述数据集,旨在帮助训练自动讲故事的系统。
团队在比利时布鲁塞尔自然语言处理经验方法会议(EMNLP)之前发表的一篇新论文“A Dataset for Telling the Stories of Social Media Videos”中,对此进行了描述。
“社交媒体平台上的视频内容构成了人与人之间交流的重要组成部分,因为它允许每个人分享他们的故事,”研究人员写道,“但是,如果有人无法使用视频,这严重限制了他们的沟通。使用视频的多句子描述自动讲述故事可以弥补这点。”
为了编辑20000个视频和123000个描述性句子的数据集,该团队着手在社交媒体上找到具有高度参与度的视频,即具有大量评论和分享的流行视频,促使人们之间的互动。
挑战在于将来自每个视频的信息整合到描述事件顺序的详细标题中。正如该论文的作者所指出的,斯坦福大学的ActivityNet Captions等现有数据集侧重于预选的人类活动集,而社交媒体视频则涵盖了广泛的主题和类别。
对于每个长度在20到180秒之间的视频,团队提供了带有注释的段落,描述了对象,情境和重要细节,并将句子与相应的时间戳排成一行。最后,片段平均有大约五个句子,每个句子平均约为18秒。
下一步是训练一个AI系统,该系统将使用VideoStory自动为视频添加字幕。共有17098个视频被保留用于训练,999和1011个视频分别用于验证和测试。
首先,该团队使用循环神经网络来描述给定视频的每个片段。并且为了确保整个系统考虑过去和未来事件之间的相关性,他们将来自每个先前段描述的上下文与第二机器学习模型相结合。
它产生的字幕并不总是正确的,但结果表明,在VideoStory数据集上训练的模型受益于额外的上下文信息。
团队表示“高质量的视频描述不仅仅是一句话,他们应该讲一个连贯的故事,我们的评估表明,由于更多样化的主题和选择引人入胜的视频来讲述故事,我们的数据集与之前的作品相辅相成。我们的VideoStory数据集可以作为构建故事理解和多句视频描述模型的良好基准。”