深度神经网络与人类感知的区别

2019年12月16日由 TGS 发表 191804 0

当你妈妈叫你的名字时，不管音量大小，你都能听出那是她的声音。当你看到她的脸时，即便她离你很远，光线不好，你也知道那就是她的脸。这种对变异的鲁棒性是人类感知的一个标志。

另一方面，我们很容易产生错觉：我们可能无法区分某些声音或图像——即便他们实际上并不相同。科学家们将其解释为幻想，我们对自己听觉视觉系统的不变性，缺乏全面的了解。

深度神经网络可以执行语音识别和图像分类任务，对听觉或视觉刺激的变化具有非常好的鲁棒性，与人类感知系统很像，但麻省理工学院的一组研究人员却发现，它们实际上是不同的。近日，他们在2019年神经信息处理系统会议上提出了他们的这个发现。

在目前的研究中，研究人员从标准的数据库中随机选择自然图像和语音片段，然后合成声音和图像，这样深度神经网络就可以将它们与自然图像分类。也就是说，它们产生的物理上截然不同的刺激被模型分类，而不是被人类分类。这是一种思考元模型的新方法，概括了将计算机模型的角色转换为人类感知器的概念。因此，他们把这些合成的刺激称为成对的自然刺激的“模型元模型”。

然后，研究人员测试了人类是否能识别文字和图像。在实验的过程中，参与者会听到一段简短的演讲，然后从一组单词中找出视频中出现的单词。如果是自然音频，这个任务是很容易的，但如果是许多模型化音频，那就很难。原因很简单，人类不会把合成的刺激物和“鸟”这个词或鸟的形象放在同一类。事实上，为匹配模型最深层的响应而生成的模型元分子，通常无法被人类主体识别为单词或图像。

基本的逻辑是，如果我们有一个很好的人类感知模型，比如说语音识别，那么如果我们选择两个模型说相同的声音，并将这两个声音呈现给人类听众，他们会认为这两种声音是一样的。如果测试者反而感觉到刺激物是不同的，就清楚地表明我们模型中的表现与人类的感知不匹配。这项工作的重要性在于改进深层网络之外的感知模型。

此外，该团队还找到了修改模型网络的方法，以生成对人类来说更合理的声音和图像的元模型，他们表示：“这给了我们希望，我们可以最终发展模型，通过条件等色测试，更好的捕捉不变性。”

标签：

行业 MIT麻省理工学院深度神经网络

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇软银在东京开设研究所以加速AI研究

下一篇 DeepMind提出了一种训练“安全”强化学习人工智能的新方法

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）