所以，AI和AR的关系是？

2019年07月23日由 sunlei 发表 848606 0

最近，上海人的日子真的不太好过。

相信大家已经了解到，这次“垃圾分类运动”是动真格的了。上海作为垃圾分类“新时尚”的引领者，从 7 月 1 日起，已正式实施《上海市生活垃圾管理条例》。条例规定，个人混合投放垃圾今后可最高罚 200 元，单位混装混运，最高可罚至 5 万元，而且违规还将会列入征信，堪称“史上最严垃圾分类措施”。

而计划到2020年底，全国会有46个城市实施垃圾分类。

垃圾分类的浪潮轰轰烈烈的袭来，引得无数网友既紧张又纠结，值得庆幸的是，为了解决市民关于垃圾分类的烦恼，支付宝“AR智能识别”垃圾分类小程序日前上线了，上支付宝AR扫便可以识别垃圾。

支付宝垃圾分类小程序集AR、图像、语音、文字4种识别方式。打开支付宝首页-扫一扫-AR模式，对准垃圾就能识别。如遇到未识别出的物品，也可手动或语音输入垃圾名称。

根据官方公布的数据显示，AR识垃圾试运行第1周，已经有超过300万人查询，其中虾壳、面膜、瓜子壳、包裹着猫屎的猫砂等荣登十大“拎不清”垃圾，市民查询次数最多。

这次支付宝“AR智能识别”垃圾分类小程序借助计算机视觉技术和可视化技术，可以实现在物理世界叠加虚拟信息，并将虚拟信息准确“放置”在物理世界中。这样也是人机互换的重要形态。所以是AI+AR？

那么，AR究竟属不属于我们认知中的人工智能？AR和AI之间到底是什么关系？

先让我们看看AI和AR分别能做什么。

AI的用处：

声音：语音输入法、通话语音转为文字、视频语音翻译为多国语言、机器人语音等

图像：证件和牌照的识别、判断植物动物的图像分类、相似图像搜索、图像审核等

自然语言：词法分析、文字相似度、机器翻译、情感倾向分析、文字审核等

人脸和人体：眼睛鼻子嘴巴等位置、实名制的人脸对比、人体四肢动作、活体检测等

AR的用处：

AR内容：身边有只精灵跟着转、地面上有座古堡可以进去看、包装盒不用打开就看见里面等

AR互动：在房间里照顾虚拟的起司猫、多人用虚拟的玩具玩游戏等

AR+AI：人脸贴纸、人脸美颜、体感游戏、拍照实时翻译等

关于AR的核心技术：

AR增强现实(Augmented Reality)技术是一种将虚拟信息与真实世界巧妙融合的技术，通过多种技术手段，将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后，应用到真实世界中，让人们在感官上实现对真实世界的“增强”。

这种增强主要是针对视觉、听觉甚至是触觉，其中人们对现实世界的认知主要是来自于视觉，所以通常是需要通过摄像机来帮助获取信息，以图片或视频的形式呈现。通过视频，实现对三维世界环境的感知理解。

[caption id="attachment_42248" align="aligncenter" width="562"]

典型AR流程[/caption]

AI和AR的技术关联：

在人工智能领域有几个概念常被提及，如深度学习(DL)、机器学习(ML)，在学术领域包括人工智能(AI)在内几大领域均有自己的研究界限，而在普遍意义上，我们常说的是泛意的人工智能，涵括所有“让机器像人一样”的技术的应用方向。

从这张图也可以简单一窥三者的关系，深度学习是实现机器学习的一种技术方式，而机器学习是为了让机器变得智能，去达到人工智能。可以说人工智能是最终目标，而机器学习是为了实现这个目标延伸出的一个技术方向。在这其中，还有另一个重要概念为计算机视觉(CV)，主要来研究如何让机器像人去“看”，是目前人工智能概念中的一个重要分支，这也是因为人类获取信息最主要的方式之一就是视觉，目前计算机视觉已经在商业市场发挥价值，比如人脸识别;自动驾驶中读取交通信号和注意行人以导航;工业机器人用来检测问题控制过程;三维环境的重建图像的处理等等。这些概念既有区分也有一定范围的重叠。

在AR的核心技术中，3D环境理解、3D交互理解和计算机视觉、深度学习都有着紧密的联系。3D环境理解在学术界里主要对应的是计算机视觉领域，而近年来深度学习在计算机视觉中得到广泛应用。交互方面，更趋自然的交互方式如手势和语音在硬件终端的使用，得益于近几年深度学习在相关领域的突破。也可以说，深度学习在AR中应用主要在视觉关键技术。

目前，AR最常见的形式是2D图片扫描识别，如腾讯QQ-AR火炬活动、支付宝五福等多数AR营销中所见，用手机扫描识别图出现叠加的内容，但主要的研发方向还在3D物体识别和3D场景建模。

现实的物体是以3D形态存在的，有不同的角度和空间方位。所以一个自然的扩展就是从2D图片识别到3D物体识别，识别物体的类别和姿态，深度学习可以用在这里。以水果识别为例，识别不同类别的水果，并且给出定位区域，即集成了物体识别与检测的功能。

3D场景建模，从识别3D物体扩大到更大更复杂的3D区域。比如识别场景里面有哪些东西、它们的空间位置和相互关系等等，这就是3D场景建模，是AR比较核心的技术。这其中涉及目前热门的SLAM(实时定位与地图构建)。通过扫描某个场景，然后在上面叠加虚拟战场等三维虚拟内容。如果只是基于普通2D图像识别就需要有特定的图片，而在图片不可见时会识别失败。而在SLAM技术里面，即使特定平面不存在，但是空间定位依然非常精确，就是因为有周围3D环境的帮助。

这里想探讨下深度学习和SLAM技术的融合，计算机视觉大体上可以分两个流派，一种基于学习的思路，例如特征提取-特征分析-分类，目前深度学习技术在这一路线上取得了主导性的地位。另外一种路线是基于几何的视觉，从线条、边缘、3D形状推出物体的空间结构信息，代表性的技术就是SFM/SLAM。基于学习的方向上深度学习基本上一统天下，但是在基于几何视觉的领域，目前相关的进展还很少。从学术界而言，深度学习技术的研究进展可以说日新月异，而SLAM技术最新十年的进展相对较少。在国际视觉顶级会议ICCV 2015年度组织的SLAM技术专题讨论会上，基于近年深度学习在视觉其它领域的快速发展，有与会专家曾提出SLAM中采用深度学习的可能性，但是目前还没有成熟的思路。总体而言，短期内将深度学习和SLAM融合是一个值得研究的方向，长远来看联合语义和几何信息是一个非常有价值的趋势。因此，SLAM+DL值得期待。

在交互方式方面，主要的包括语音识别和手势识别，语音识别在目前已经取得了较大进展，国内如百度、科大讯飞、云知声等都是其中的佼佼者，AR公司更想突破的是手势识别的成熟商业化。

以上不难看出，AR的底层技术或者说基础部分是计算机视觉以及关联领域的融合，而当下热门的深度学习和AR的结合，也是算法工程师们的努力方向。这也是AR为计算机视觉与人机交互的交叉学科，AR的基础是人工智能和计算机视觉等说法的依据。

[caption id="attachment_42250" align="aligncenter" width="508"]

计算机视觉与AR流程关联[/caption]

那AR究竟属不属于AI?

未来，AR技术可以在众多的领域实现应用，比如，医疗、军事、教育、娱乐、游戏等等。而众所周知的是，传统的AR应用，只能把虚拟或者脑洞大开设想出的物体静止的呈现出来，而在行为形态和感知上毫无作用，也就是说，只能在视觉上产生真实感，仅此而已。

然而，如果将AI技术融入到AR应用上，其整体的真实感无论是从视觉还是从意识形态和行为上会更加生动，接近真实。

AR+AI结合的流程：

AR采集现实物体信息-->AI处理并返回信息-->AR叠加虚拟信息在现实物体上

AR+AI组合的角色：

AR不一定依赖AI，但拥有AI能有个聪明的大脑。

AI不依赖AR，但拥有AR会有个漂亮的外貌。

我倒觉得，与其说AR和AI是科技下不同类型的产物，倒不如说他们是一对亲密的恋人。

虽然把它们分开，各自也都可以有更好的发展，而一旦他们强强联合，其所绽放出的光彩足够让你震撼。

标签：

学习 AR

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇韩商言为什么让万千少女“上头”？除了颜值，CTF必须了解一下！

下一篇如果拥有哈利波特的隐形衣，你想用它来干什么？

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）