IBM为机器学习开发低功耗,高性能的视觉系统
2018年06月21日 由 浅浅 发表
758518
0
机器学习算法近年来有了突飞猛进的发展。例如,像Facebook这样的最先进的系统 可以在一小时内训练图像分类算法,而不会牺牲准确性。但其中许多人都接受过使用强大GPU的高端机器的训练,随着物联网(IoT)产业向边缘计算发展,对低功耗低成本人工智能模型的需求不断增长。
IBM有前景的研究为更高效的算法奠定了基础。在CVPR会议上,该公司的研究人员发表两篇论文,分别介绍图像分类处理。
BlockDrop
第一个标题为“BlockDrop: Dynamic Interference Paths in Residual Networks”,建立在微软在2015年发布的有关Residual networks的工作基础上。Residual networks(简称ResNets)引入了神经网络中各层之间的身份连接,允许它们在训练过程中学习增量或残余。
IBM将这一想法向前推进了一步。科学家们引入了一个轻量级的二级神经网络,在本文中称为“策略网络”,在预先训练的ResNet中动态地丢弃残余块。为了确保性能收益不以精确为代价,策略网络使用最少数量的块训练并保持识别准确性。
IBM研究经理Rogerio Feris表示,“一般来说,如果向模型添加更多图层,可以提高其准确性,但是会增加计算成本,目前大多数模型的一个问题是,有一个通用的网络,在所有图像中都使用相同的计算。我们的系统可以更有效地分配资源,并准确地识别图像。”
BlockDrop将图像分类平均加快了20%,在某些情况下加快了36%,同时保持了76.4%的准确性。
论文网址:arxiv.org/abs/1711.08393
改善立体视觉
第二篇论文“A Low Power, High Throughput, Full Event-Based Stereo System”解决了图像处理中的另一个问题:立体视觉。
正如IBM研究员Alexander Andreopoulos解释的那样,人类的眼睛相距几厘米,从略微不同的角度看世界。大脑的视觉皮层将两只眼睛的图像无缝融合为一体,使我们能够感知深度,但双摄像机器人系统在协调视差方面更困难。
“在计算机视觉的情况下,相机镜头有异常,这会导致噪音并使问题复杂化,”Andreopoulos说。
研究人员的解决方案是:运行在IBM TrueNorth神经形态芯片上的系统,该系统具有针对机器学习模型进行了优化的高度并行化架构。系统使用九个处理器的集群,一对基于事件的摄像头(当它们检测到运动时只拍摄图像的摄像头)以及一台将计算分配给上述芯片的笔记本电脑,每秒算法捕获并处理400(最多达2,000)视差图。
Andreopoulos解释说,基于事件的摄像机的使用大大减少了带宽和能源消耗。“立体声算法已经存在了30多年,但大多数系统都采用积极的方法来感知世界。我们使用的方法很被动。”
总体而言,与具有高帧速率照相机的最先进系统相比,该系统在每个像素的每像素功率方面的性能提高了200倍。
这些结果为依靠低功耗,低延迟深度信息来导航世界的机器人系统带来希望。
论文网址:researcher.watson.ibm.com/researcher/files/us-aandreo/cvpr2018.pdf