高尔夫球还是茶壶？神经网络能否通过形状正确识别物体

2019年01月14日由浅浅发表 460896 0

深度学习计算机网络到底有多聪明？这些机器与人脑的模仿程度有多接近？加州大学洛杉矶分校认知心理学家团队在PLOS计算生物学期刊上表示，近年来，虽然已经有了很大的进步，但仍有很长的路要走。

神经网络的支持者热衷于使用这些网络来完成许多个人任务，然而，在这项研究中的五个实验的结果表明，网络很容易被欺骗，并且网络使用计算机视觉识别物体的方法与人类视觉大不相同。

“这些机器有严重的局限性，我们需要了解这些，”加州大学洛杉矶分校的心理学教授，该研究的高级作者Philip Kellman说。

第一个实验

研究者展示了最好的深度学习网络之一VGG-19，即动物和物体的彩色图像。图像被更改了，例如，茶壶的形状用高尔夫球的表面覆盖；斑马条纹覆盖在骆驼上，VGG-19对它的首选项进行了排名，在40个对象中只有5个选择了正确的选项。

“我们可以很容易地欺骗这些人工系统，”共同作者，加州大学洛杉矶分校心理学教授Lujing Lu说。“它们的学习机制远没有人类的思维复杂。”

对于茶壶的例子来说，VGG-19认为只有0.41％的可能性是茶壶。它的首选是高尔夫球，这表明AI网络比起形状，更重视物体的纹理。

Kellman说：“选择高尔夫球是绝对合理的，但令人担忧的是，茶壶没有出现在选择中，它完全没有考虑形状。”但人类主要从形状上识别物体，研究人员怀疑计算机网络使用的是另一种方法。

第二个实验

心理学家向VGG-19，以及排名第二深度学习网络AlexNet展示了玻璃雕像的图像。VGG-19在所有测试两个网络的实验中表现更好。这两个网络都经过训练，可以使用名为ImageNet的图像数据库识别对象。

然而，两个网络都表现不佳，无法识别玻璃雕像。VGG-19和AlexNet都没有正确地将雕像的形状确定为首选项。一个大象雕像被两个网络评为大象几率为0％。大多数排在前列的选项令研究人员感到困惑，平均而言，AlexNet在1000个选项中把正确答案排在了第328位。

第三个实验

研究人员向VGG-19和AlexNet展示了40幅黑白色轮廓图。这三个实验都旨在发现网络是否通过其形状识别物体。这些网络在识别诸如飞机，蝴蝶和香蕉等物品方面很差。

但该实验的目的不是欺骗网络，而是要了解他们是否以与人类相似的方式，还是以不同的方式识别物体。

第四个实验

研究人员为两个网络展示40个图像，这次是纯黑色图像。

对于黑色图像，网络表现得更好，在前五个选项中产生正确的对象标签的概率大约为50%。研究人员认为这些网络在黑色物体方面的表现要好得多，因为这些物品缺乏Kellman所说的“内部轮廓”，而这些边缘会混淆机器。

第五个实验

研究人员打乱了图像，使其难以识别，但它们保留了一些物体碎片。研究人员选择了VGG-19网络最初获得的六张图像，人类发现这些难以辨认。VGG-19识别了六张图片中的五张。

作为第五个实验的一部分，除了VGG-19之外，研究人员测试了加州大学洛杉矶分校的本科学生。十名学生识别黑色轮廓的物体，有些是被打乱的。学生们正确识别出92％的未被打乱的对象，被打乱的对象识别准确率为23％。当学生可以根据需要看到轮廓时，他们正确地识别出97％的未被打乱对象和37％打乱的对象。

心理学家得出的结论是，人类看到整个物体，而人工智能网络识别物体的碎片。

Kellman表示，“这项研究表明，这些系统在不考虑形状的情况下，就能从训练过的图像中得到正确的答案。对人类来说，整体形状是物体识别的首要条件，但这些深度学习系统似乎与人类背道而驰。”

论文：

journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006613

标签：

视觉识别神经网络计算机视觉

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇二维人物变3D，AI让人物从静态图像中走出来

下一篇深度学习系统根据食谱自动生成食物图像

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）