Facebook创建了VideoStory数据集，训练AI将视频转化为故事

2018年11月01日由浅浅发表 850445 0

视频是社交媒体的命脉，仅Facebook的视频每天平均观看次数就超过80亿次，每天观看时间超过1亿小时，此外，超过45％的人表示他们每周观看超过一小时的Facebook或YouTube视频。

但是，视频的问题在于它具有排他性，残疾人或不能熟练使用互联网的人无法轻易参与其中。考虑到这一点，Facebook的研究人员创建了VideoStory，这是一个新的视频描述数据集，旨在帮助训练自动讲故事的系统。

团队在比利时布鲁塞尔自然语言处理经验方法会议（EMNLP）之前发表的一篇新论文“A Dataset for Telling the Stories of Social Media Videos”中，对此进行了描述。

“社交媒体平台上的视频内容构成了人与人之间交流的重要组成部分，因为它允许每个人分享他们的故事，”研究人员写道，“但是，如果有人无法使用视频，这严重限制了他们的沟通。使用视频的多句子描述自动讲述故事可以弥补这点。”

为了编辑20000个视频和123000个描述性句子的数据集，该团队着手在社交媒体上找到具有高度参与度的视频，即具有大量评论和分享的流行视频，促使人们之间的互动。

挑战在于将来自每个视频的信息整合到描述事件顺序的详细标题中。正如该论文的作者所指出的，斯坦福大学的ActivityNet Captions等现有数据集侧重于预选的人类活动集，而社交媒体视频则涵盖了广泛的主题和类别。

对于每个长度在20到180秒之间的视频，团队提供了带有注释的段落，描述了对象，情境和重要细节，并将句子与相应的时间戳排成一行。最后，片段平均有大约五个句子，每个句子平均约为18秒。

下一步是训练一个AI系统，该系统将使用VideoStory自动为视频添加字幕。共有17098个视频被保留用于训练，999和1011个视频分别用于验证和测试。

首先，该团队使用循环神经网络来描述给定视频的每个片段。并且为了确保整个系统考虑过去和未来事件之间的相关性，他们将来自每个先前段描述的上下文与第二机器学习模型相结合。

它产生的字幕并不总是正确的，但结果表明，在VideoStory数据集上训练的模型受益于额外的上下文信息。

团队表示“高质量的视频描述不仅仅是一句话，他们应该讲一个连贯的故事，我们的评估表明，由于更多样化的主题和选择引人入胜的视频来讲述故事，我们的数据集与之前的作品相辅相成。我们的VideoStory数据集可以作为构建故事理解和多句视频描述模型的良好基准。”

标签：

行业 Facebook 数据人工智能应用

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果推出A12X Bionic，七核GPU，多核性能提升了90％

下一篇 Facebook开源强化学习平台Horizon，可大规模部署AI

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）