计算机视觉应用:深度学习的力量和局限性
2020年01月03日 由 KING 发表
210653
0
自从人工智能诞生之初,计算机科学家就梦想着创造出能够像我们一样看到和理解世界的机器。这些努力导致了计算机视觉的出现,计算机视觉是AI和计算机科学的广阔领域,致力于处理视觉数据的内容。
近年来,由于深度学习和人工神经网络的进步,计算机视觉取得了长足的进步。深度学习是AI的一个分支,特别擅长处理图像和视频等非结构化数据。
这些进步为在现有领域中促进计算机视觉的使用以及将其引入新领域铺平了道路。在许多情况下,计算机视觉算法已成为我们每天使用的应用程序中非常重要的组成部分。
计算机视觉的商业应用
其实你每天都在使用计算机视觉应用程序,在某些情况下可能没有注意到它。以下是使生活变得有趣和便捷的计算机视觉的一些实用和流行的应用程序。
图片搜寻
计算机视觉已取得巨大进展的领域之一是图像分类和物体检测。经过足够标签数据训练的神经网络将能够以惊人的精度检测并突出显示各种物体。
很少有公司能够与Google庞大的用户数据存储相匹配。他们一直在使用其几乎无限(并且正在不断增长)的用户数据存储库来开发一些最高效的AI模型。当您在Google相册中上传照片时,它会使用其计算机视觉算法对场景,物体和人物的内容信息进行注释。然后,您可以根据此信息搜索图像。
例如,如果您搜索“ dog”,则Google会自动返回您库中包含狗的所有图像。
图像编辑和增强
现在,许多公司正在使用机器学习来自动增强照片。Google的Pixel手机系列使用设备上的神经网络进行自动增强,例如白平衡、添加效果与模糊背景。
智能缩放是计算机视觉技术的一大进步。传统的缩放功能通常会使图像模糊,因为它们通过在像素之间进行插值来填充放大的区域。基于计算机视觉的缩放不是放大像素,而是着重于边缘,图案等特征。这种方法可以使图像更清晰。
许多初创公司和历史悠久的图形公司已转向深度学习来增强图像和视频。Lightroom CC中的Adobe 增强细节技术使用机器学习来创建更清晰的缩放图像。
图像编辑工具Pixelmator Pro具有ML超分辨率功能,该功能使用卷积神经网络提供清晰的缩放和增强效果。
面部识别应用
几年前面部识别技术还是一项笨拙且昂贵的技术,仅限于警察研究实验室。但是近年来,由于计算机视觉算法的进步,面部识别已进入各种计算设备。
iPhone X引入了FaceID,这是一种身份验证系统,该系统使用设备上的神经网络在看到拥有者的脸部时将手机解锁。在设置过程中,FaceID在所有者的脸上训练其AI模型,并在不同的光照条件、发型、帽子和眼镜下正常工作。
在国内刷脸支付已经普及。客户无需使用信用卡或移动支付应用程序,而只需要站在配备有计算机视觉的设备前即可。
尽管取得了进步,但是,当前的面部识别并不完美。AI和安全研究人员发现了多种导致面部识别系统出错的方法。在一个案例中,卡内基梅隆大学的研究人员表明,戴上特制眼镜,他们可能会欺骗面部识别系统,以将其误认为名人。
数据高效的家庭安全
随着物联网(IoT)的发展,连接互联网的家庭安全摄像头已越来越受欢迎。现在,您可以随时轻松地安装安全摄像头并在线监控您的房子。
每个摄像头都会向云端发送大量数据。但是,安全摄像头记录的大多数镜头都是不相关的,从而导致网络,存储和电力资源的大量浪费。计算机视觉算法可以使家庭安全摄像机在使用这些资源时变得更加高效。
而智能摄像头将保持空闲状态,直到它们检测到视频中的物体或移动,之后它们才能开始将数据发送到云或将警报发送给相机的所有者。但是请注意,计算机视觉仍然不能很好地理解上下文。因此,不要指望它能在良性运动(例如,球在房间内滚动)和需要注意的事物(例如,小偷闯入您的房屋)之间区分开来。
与现实世界互动
在过去的几年中,增强现实(将现实世界的视频和图像与虚拟对象重叠的技术)已成为一个新兴的市场。AR的大部分扩展归功于计算机视觉算法的发展。AR应用程序使用机器学习来检测和跟踪目标位置和放置虚拟对象的对象。您可以在许多应用程序中看到AR和计算机视觉的结合,例如Snapchat过滤器和Warby Parker的Virtual Try-On。
计算机视觉的高级应用
由于深度学习的进步,计算机视觉现在可以解决以前很难解决甚至计算机无法解决的问题。在某些情况下,训练有素的计算机视觉算法可以与具有多年经验和培训的人媲美。
医学图像处理
在深度学习之前,创建可以处理医学图像的计算机视觉算法需要软件工程师和医学专家的大量努力。他们必须合作开发从放射影像中提取相关特征的代码,然后对其进行检查以进行诊断。
深度学习算法提供了端到端解决方案,使该过程变得非常容易。工程师创建正确的神经网络结构,然后在带有结果注释的X射线,MRI图像或CT扫描上对其进行训练。然后,神经网络找到与每个结果相关的相关特征,然后可以以惊人的准确性诊断未来的图像。
计算机视觉已进入许多医学领域,包括癌症检测和预测,放射学,糖尿病性视网膜病。
一些AI研究人员甚至说深度学习将很快取代放射科医生。但是,那些在该领域有经验的人会有所不同。除了看幻灯片和图像外,诊断和治疗疾病还有很多其他的事情。另外,请不要忘记,深度学习从像素中提取图案-它不能复制人类医生的所有功能。
玩游戏
教计算机玩游戏一直是人工智能研究的热点。大多数游戏程序都使用强化学习,这是一种通过反复试验来发展其行为的AI技术。
计算机视觉算法在帮助这些程序解析游戏图形内容方面发挥着重要作用。但是要注意的一件事是,在许多情况下,图形会被简化,以使神经网络更容易理解它们。此外,目前,AI算法需要大量数据才能学习游戏。例如,OpenAI的玩Dota的AI必须经历45000年的游戏过程才能达到冠军水平。
无人售货商店
在2016年,亚马逊推出了Go商店,当客户在商店中走动时,配备了高级计算机视觉算法的摄像机会监控他们的行为,并跟踪他们拿起或返回货架的物品。当他们离开商店时,他们的购物车会自动从他们的Amazon帐户中扣除。
宣布三年后,亚马逊已经开设了18家Go商店,并且仍在进行中。但是,有希望的迹象表明,计算机视觉(借助其他技术的帮助)将有一天使结帐业务成为过去。
自动驾驶汽车
自动驾驶汽车一直是AI社区最长远的梦想和最大的挑战之一。今天,我们距离能在各种光照和天气条件下在任何道路上行驶的自动驾驶汽车还很遥远。但是,由于深度神经网络的进步,我们取得了许多进步。
创造无人驾驶汽车的最大挑战之一就是使他们能够了解周围的环境。尽管不同的公司以各种方式解决该问题,但它们之间不变的一件事是计算机视觉技术。
安装在车辆周围的摄像头可监控汽车的环境。深度神经网络解析镜头并提取有关周围物体和人物的信息。该信息与来自激光雷达等其他设备的数据相结合,以创建该区域的地图,并帮助汽车在道路上行驶并避免碰撞。
可怕的计算机视觉应用
像所有其他技术一样,并非所有有关人工智能的内容都令人愉悦。先进的计算机视觉算法可以扩大恶意用途。以下是一些引起关注的计算机视觉应用。
监视
对面部识别技术感兴趣的不仅是电话和计算机制造商。实际上,面部识别技术的最大客户是政府机构,他们对使用该技术自动识别安全摄像机镜头中的罪犯有既得利益。
但是问题是,您如何在国家安全与公民隐私之间划清界限?由面部识别技术提供支持的安全摄像机的广泛应用使政府能够密切跟踪数百万公民的活动,无论他们是否是犯罪嫌疑人。
自主武器
计算机视觉还可以将目光投向武器。军用无人机可以使用AI算法识别物体并挑选目标。在过去的几年中,军方对AI的使用引起了很多争议。面对员工的批评,谷歌不得不取消为国防部开发计算机视觉技术的合同。
目前,仍然没有自动武器。大多数军事机构都在有人员参与的系统中使用AI和计算机视觉。
但是人们担心,随着计算机视觉的进步和军事部门的更多参与,我们拥有的武器可以选择自己的目标并在没有人做决定的情况下扳动扳机只是时间问题。