人工智能胶囊系统以最先进的精度区分物体
2019年12月04日 由 TGS 发表
121957
0
强有力的证据表明,人类总是依靠坐标系或参考线和曲线来推测空间中点的位置。这与广泛使用的计算机视觉算法不同,后者往往通过物体特征的数字表示来区分物体。为了寻求一种让机器更像人类的方法,谷歌、Alphabet子公司DeepMind和牛津大学的研究人员提出了堆叠式胶囊自动编码器(SCAE)——它利用物体各部分之间的几何关系来推理物体。由于这些关系不依赖于模型查看对象的位置,所以即使在视图发生变化时,模型也能高精度地对目标进行分类。
2017年,人工智能领域最重要的理论家和图灵奖获得者——杰弗里·辛顿,与学生萨拉·萨布尔和尼古拉斯·弗罗斯特一起提出了名为“CapsNet”的机器学习体系架构,这是一种经过差别训练的多层次方法,在流行的基准上实现了最先进的图像分类性能。
今年早些时候,辛顿、萨伯和牛津机器人研究所的研究人员详细介绍了SCAE,它在一些关键方面改进了原有的架构。
SCAE和其他胶囊系统通过几何解释有组织的部件集合,进而理解物体。具体来说就是,负责分析各种对象属性(如位置、大小和色调)的数学函数集胶囊被添加到一种经常用于分析视觉图像的人工智能模型上,并且多个胶囊的预测被重复使用,以形成部件的表示。由于这些表示在SCAE的分析过程中保持完整,因此胶囊系统可以利用它们来识别对象,即使在交换或转换部件位置时也是如此。
胶囊系统非常独特,但与所有的深度神经网络一样,胶囊的功能被安排在相互连接的层中,不同只在于其权重是根据前一层函数预测下一层输出的能力动态计算的,而不是根据数据传输信号。
SCAE包括三个阶段。首先,第一阶段——利用星座胶囊自动编码器(CCAE)提取待分析图像的像素;第二阶段——部分胶囊自动编码器(PCAE)——将图像分割成组成部分,并在重建图像之前推断它们的姿态;第三阶段——对象胶囊自动编码器(OCAE)试图组织发现的部分和它们的姿态集成一个更小的对象集合,然后试图重建。