AI做视频？原来视频居然可以这样做！

2017年07月12日由 nanan 发表 421813 0

全球人工智能与机器人峰会 — CCF-GAIR大会，于2017年7月7日至9日，在深圳隆重召开。CCF-GAIR大会由CCF中国计算机学会主办、雷锋网与香港科技大学（深圳）承办。在大会进入第三天（9日），CV+专场首场中，微软亚洲研究院资深研究员梅涛博士给大家带来一场名为《Video Content 3C: Creation, Curation, Consumption》的主题演讲，即视频的创造、处理和消费。

为什么要对视频的内容进行讲解，梅涛博士有提到以下几点内容：

第一，视频与图像相比较内容更加的丰富，更加的深入，同时也更具有挑战；

第二，目前大家可能看到较多的是视觉领域方面的进展，例如面部（人脸）、防卫等，但视频对大家可能就会是一个崭新的领域了；

第三，梅涛博士从事视频方面的研究已经有十多年的时间了，当时就有人说视频可能就是下一个突破，现在看来这个说法是正确的。

要在传统的视觉理解的方法里做视觉问题基本上可以分三个步骤：

首先，理解一个物体，比如说一张桌子，你要先检测下它的边、角、线等关键点；

其次，认为设计一些特征来描述视觉属性；

最后，需要设计一些分类器将人为设计的这些特征进行输入和识别。

现在的深度学习，图像识别的错误率在不断的降低，已经从最早的8层到20多层，到如今已经达到152层的地步了，而视频理解也可以做到如今的199层。

视频内容的生命周期大致可以分为三个部分，即视频的创作、处理和消费：

Creation

在这里面涉及到一个基本概念，即视频的产生原理。Video的产生是先把Video切成一个一个的镜头，可以看成是一个一个断码，然后每一个镜头再组合编成一个故事，每几个语言可以放成一个故事。通过这种结构化可以把视频分解成不同的单元，可以将长视频做成多个短视频，这些摘要使得用户对长视频的非线性快速浏览成为可能。

梅涛博士还表示，目前微软将视频摘要的技术用在了Bing的视频搜索里，并且微软研发员研发的PIX，则是一个全新的相机app，可以自动判断视频的静止或动态的像素，可以把抖动的视频变得平稳。

Curation

当用户有了视频之后，要做的事情就是给视频片段打上标签，目前为止可以打上1000个静态标签和超过500个的动态标签，这样就可以根据这些标签搜索到视频的具体内容了。

在做图像分析方面目前最好的深度神经网络是微软亚洲研究院在2015年提出的152层的残差网络，目前最深可以做到1000层。但是在视频领域，目前最有效的3D CNN才做到11层。梅涛博士还表示，目前借用ResNet的思想，将3D CNN的层数做到了199，识别率比之前提高了6到7个百分点。

梅涛博士说明了一下所在团队目前正在研究的方向：用一段连贯通顺的自然语言，而不是孤立的单个标签，来描述一段视频内容。

另外我们还可以进行分析动作，例如给你一个Video，然后让你用一句话来描述这段内容，以前我们说这个 Video 是一个舞蹈，现在可以告诉你这是一群人在跳一段什么舞蹈，这个技术就叫Video Captioning。可以实时产生字母，自动评价，例如微软小冰，你上传视频给小冰，它会夸赞你，不仅如此，小冰还可以写诗。

我们也可以将 Video 进行编辑，加上滤镜，或是做风格的转换，把自然的 Video 变得非常卡通，Video 中的人物分割出来可以放到另外一个虚拟的场景里面去。你可以想象一下，当两个人在异地谈恋爱的时候，我们可以给他们一个房间，让他们在同一个房间、同一片星空下聊天。

我们还可以提供服务，让 image、Video变成一段非常吸引人的、有一定设计感和视觉感的故事，这其实都是机器自动产生的效果，加上人工的处理，视频就可以变得更加时尚。

Consumption

视频的消费往往和广告紧密相关。梅涛博士提到，做Video广告有两个问题需要解决：第一个问题广告到底放在 Video 的什么位置；第二个问题是选什么样的广告，而这个广告是否跟你插入的信息相关，使得用户接受度更加好。

他们的解决方案是对Video进行分解，并计算出两种度量：一个是discontinuity，衡量一个广告插入点的故事情节是否连续；另一个是attractiveness，衡量一段原始视频的内容是否精彩。从而做出符合广告商的需求或满足不同用户的需求的视频。

最后梅涛博士总结道，在做科研的人看来，AI也好，深度学习也好，都有很长的路要走，这些问题对于做科研和技术的人来说，是需要脚踏实地一个一个的去解决，切不可急于求成。

标签：

行业视觉识别图像识别计算机视觉峰会论坛

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌研究如何让人工智能“人性化”

下一篇第四个工业时代：AI需要理解我们，而不是我们理解AI

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）