一种让人工智能轻松解析视频的方法

2019年10月16日由 TGS 发表 894441 0

麻省理工学院(MIT)和IBM的一个团队开发了一种算法，只消耗以前所需处理能力的一小部分，就能够准确识别视频中的动作，这可能会改变将人工智能应用于大量视频的经济效益。该方法采用了人工智能的方法来处理静态图像，给它一个粗略的时间概念，或将有助于控制目前网络上每时每刻都在生成的大量内容。

尽管科技公司喜欢炫耀它们对人工智能的使用，以及让人眼花缭乱的所谓成果，但实际上，利用人工智能分析视频方面的应用仍然不多。YouTube、Facebook和TikTok使用机器学习算法对视频片段进行分类和推荐，但它们似乎主要依赖于与视频相关的元数据，比如说描述、标签以及上传的时间和地点。所有人都在研究分析视频内容的方法，但这些方法无一例外，全都需要更多的计算能力。

公司希望使用人工智能自动生成视频的详细描述，让用户发现没有注释的视频片段，同时也愿意出售基于视频内容的广告。Facebook和谷歌也希望使用人工智能来自动发现和过滤非法或恶意内容，尽管这看起来像是一场正在进行的猫抓老鼠游戏，但是在不显著增加人工智能碳足迹的情况下，完成这个游戏其实非常艰难。

随着企业利用人工智能分析视频，近年来，图像识别技术取得了很大进展，这在很大程度上要归功于深度学习。深度学习算法可以根据图像中显示的像素来检测目标，但它却不太擅长解释视频。

分析一个视频帧不会揭示出发生了什么，除非将该帧与之前和之后的帧进行比较，这涉及到连贯性问题。比如说一个人匆匆出门，可能是急着去办什么要紧事，也可能是发生了地震，再或者，这个人是小偷，得手后匆匆离场。有因必有果，由起因推导出结果，或者根据结果推导起因，从而得知过程，这是一种逻辑思考方式。

因与果像是素材，而麻省理工的研究人员就很聪明地利用了这一根本点，他们把素材进行了精简，比若说把3D的图片转化为2D，这无疑会节省很多数据计算量，通过这种方式，无疑会大大减少计算的量，人工智能“工作”起来自然也就比之前轻松。

目前，这种方法还未能达到最理想的效果，还需要不短的时间进行打磨，一旦功成，所带来的利益将是巨大的。因为在计算力愈发重要的当代，能够解放计算力的方法意味着什么，不言而喻。

标签：

行业 AI识别

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇未来城市的缩影，张江AI应用实验场了解一下？

下一篇 Varjo推出高分辨率企业VR头盔

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）