说的太好了！深度学习的局限性到底在哪？

2019年01月24日由荟荟发表 64825 0

大肆宣扬的人工智能方法有令人印象深刻的成就，但仍然缺乏人类的脑力。研究人员决心找出遗漏了什么。

说的太好了！深度学习的局限性到底在哪？

毫无疑问，这是一个香蕉——一个又大又熟的亮黄色香蕉。然而，人工智能(AI)将其视为烤面包机，尽管它接受过同样强大且经常被宣传的深度学习技术的培训，这些技术在无人驾驶汽车、语音理解和大量其他人工智能应用程序中产生了一场白热化的革命。这意味着人工智能被展示了几千张香蕉、蛞蝓、蜗牛和类似物体的照片，就像许多闪存卡一样，然后在答案上反复操练，直到把分类搞清楚为止。然而，这个先进的系统很容易被混淆——只需要一个小小的发光贴纸，数码粘贴在图像的一个角落。

说的太好了！深度学习的局限性到底在哪？

Google Brain团队在加利福尼亚州山景城发现了一个深度学习研究人员称之为“敌对性攻击”的例子，它突显了人工智能在远程接近人类能力之前还需要走多长的路。多伦多大学的计算机科学家杰弗里·辛顿是深度学习的先驱之一，他说:“我一开始以为敌对的例子只是一种烦恼。” “但我现在认为它们对我来说可能相当深刻。它们告诉我们，我们做错了什么，“

这是人工智能从业人员的普遍看法，他们中的任何一个人都可以轻易地说出一长串深度学习的缺点。例如，除了易受欺骗之外，它还存在着严重的低效率。辛顿说:“一个孩子要学会认出一头奶牛，并不像他们的母亲那样需要说1万次‘牛'——这是深度学习系统经常需要的数字。” 人类通常只从一两个例子中学习新概念。

还有不透明的问题。一旦一个深层次的学习系统被训练好了，它并不总是清楚它是如何做出决定的。麻省剑桥MIT-IBM沃森人工智能实验室负责人、计算神经系统科学家大卫·考克斯说:“在许多情况下，这是不可接受的，就算它得到了正确的答案。” 假设一家银行使用人工智能来评估你的信用度，然后拒绝给你贷款:“在许多州，法律却规定你必须解释清楚原因，”

也许最重要的是，缺乏常识。深度学习系统可能是识别像素中模式的奇才，但他们无法理解模式的含义，更不用说解释了。谷歌母公司Alphabet在伦敦的子公司DeepMind的人工智能研究员格雷格·韦恩说:“我不清楚目前的系统是否能看到沙发和椅子是用来坐的。”

越来越多的人开始关注人工智能，尤其是那些使用类似深度学习技术导航的无人驾驶汽车，它们卷入了广为人知的事故和死亡事件中。纽约大学的认知科学家加里·马库斯说:“人们已经开始说，‘也许这是个问题’。”（马库斯是Deep Learning最直言不讳的怀疑论者之一。）他说，“有一种感觉，深刻的学习是神奇的，但现在人们已经开始意识到这不是魔法。”

不过，不可否认的是，深度学习是一个功能强大的工具，它使十年前几乎不可能部署的面部和语音识别等应用程序变成现实。考克斯说:“所以我很难想象深层次的学习会在这一点上消失。” “我们更有可能对其进行修改或扩充。”

大脑之战

今天的深度学习革命起源于20世纪80年代的“大脑之战”，当时两种不同的人工智能方法的倡导者们互相谈论着过去的事情。

一方面是一种自上世纪50年代以来一直主导该领域的方法——现在被称为“老式人工智能”。也被称为符号人工智能，它使用数学符号来表示对象和对象之间的关系。再加上人类建立了广泛的知识库，这类系统被证明在推理和得出医学等领域的结论方面具有令人印象深刻的优势。但到了20世纪80年代，象征性人工智能在处理现实生活中的符号、概念和推理的流动性方面也变得越来越糟。

针对这些缺点，叛逆的研究人员开始提倡人工神经网络，或连接主义人工智能，也就是今天深层次学习系统的前身。任何这样的系统的想法都是通过一个模拟节点网络来处理信号:人脑中神经元的类似物。这些信号沿着神经元之间突触连接的类似物——连接或链接从一个节点传递到另一个节点。而学习，就像在真实的大脑中一样，是一个调整“权重”的问题，这个“权重”放大或抑制每个连接所携带的信号。

在实践中，大多数网络将节点排列为一系列层，这些层大致类似于皮层中不同的处理中心。因此，专门用于图像的网络将具有一层输入节点，其对单个像素的响应方式与棒状细胞和锥状细胞对光击中视网膜的响应方式大致相同。一旦激活，这些节点通过加权连接将它们的激活级别传播到下一级别的其他节点，这些节点组合传入的信号并依次激活（或不激活）。一直持续到信号到达节点的输出层，在那里激活模式提供了一个答案——例如，断言输入图像是数字“9”。如果该答案是错误的——假设输入图像是“0”——则“反向传播”算法通过层向下工作，调整权重以在下一次获得更好的结果。

到20世纪80年代末，这种神经网络在处理噪声或模糊输入方面比象征性人工智能要好得多。然而，这两种方法之间的僵局仍未化解——主要是因为当时能装进电脑的人工智能系统非常有限。不可能确切知道这些系统能做什么。

功率提升

直到2000年代，随着更强大数量级的计算机的出现，以及提供大量图像、声音和其他培训数据的社交媒体网站的出现，这种认识才开始有所提高。首先抓住这一机会的是辛顿，反向传播算法的合著者和80年代联结主义运动的领导者。

2009年，辛顿和他的两名研究生发现，这种“深度学习”比任何其他已知的方法都能更好地识别语音。2012年，辛顿和另外两名学生发表的实验表明，深度神经网络在识别图像方面可能比标准视觉系统好得多。 “差错率几乎减少了一半，”他说。随着语音和图像识别领域的双重打击，深度学习应用领域的革命开始了——研究人员为改进这一技术所做的努力也开始了。

Matthew Botvinick说，早期的一个优先事项是扩大深度学习系统的培训方式，2015年，他从普林斯顿大学的神经科学小组请假，在DeepMind做了一年的休假，而且从未离开过。语音和图像识别系统都使用了所谓的监督学习，这意味着，对于每一张图片，都有一个正确的答案——比如说，‘猫'——如果网络是错的，你就告诉它什么是正确的答案。”然后网络使用反向传播算法来改进它的下一个猜测。

Botvinick说，有指导的学习效果很好，如果你恰好有几十万个仔细标注的训练例子。平心而论，这种情况并不常见。而且，它根本不适合玩电子游戏之类的任务，因为在这些任务中，没有正确或错误的答案，只有成功或失败的策略。

Botvinick解释说，对于这些情况，事实上，在现实世界的大部分生活中，你都需要强化学习。例如，一个强化学习系统玩一个电子游戏，学习寻找奖赏（找到一些宝藏）和避免惩罚（损失金钱）。

强化学习在深层神经网络上的首次实施是在2015年，当时DeepMind的一个团队训练了一个网络，玩的是经典的Atari2600游戏。 Botvinick随后加入了该公司，他说:“网络会在游戏过程中拍摄屏幕图像，在输出端是指定动作的图层，比如如何移动操纵杆。”他说，网络的游戏能力相当于甚至超过了人类的Atari玩家。2016年，DeepMind的研究人员对AlphaGo使用了一种更精细的方法——一个精通复杂棋盘游戏围棋的网络——击败了世界冠军人类玩家。

超越深奥的学问

不幸的是，这两个里程碑都没有解决深度学习的根本问题。举例来说，雅达利系统必须玩数千轮才能掌握一个大多数人类玩家可以在几分钟内学会的游戏。即使这样，网络也无法理解或推理屏幕上的对象，如桨。所以辛顿的问题依旧有效:少了什么？

也许什么都没有。也许所需要的只是更多的联系、更多的层次和更复杂的训练方法。毕竟，正如Botvinick所指出的，神经网络在数学上等同于一台通用计算机，这意味着没有他们不能执行的计算——至少在原则上是这样，如果你能找到正确的连接权重的话。

但在实践中，这些警告可能是一个致命的原因，为什么在该领域有一个日益增长的感觉？或许，深入学习的缺点需要一些根本上的新想法。

一种解决方案是简单地扩大训练数据的范围。例如，在2018年的一篇文章中，Botvinick的DeepMind小组研究了当一个网络接受多项任务的训练时会发生什么。他们发现，只要网络有足够多的“循环”连接从较后的层向后运行到较早的层（该功能允许网络从一个瞬间到下一个瞬间记住它正在做什么），它就会自动吸取从较早的任务中学到的经验教训，以更快地学习新的任务。这至少是一种人类风格的“元学习”的雏形，即学会学习，这是我们快速掌握事物能力的一个重要部分。

一个更根本的可能性是放弃试图通过训练一个大网络来解决手头的问题，而是让多个网络协同工作。 2018年6月，DeepMind团队发布了一个称为“生成查询网络体系结构”的示例，该示例利用两个不同的网络在没有人工输入的复杂虚拟环境中学习方法。其中一个被称为表示网络，它本质上使用标准的图像识别学习来识别在任何给定时刻对AI可见的东西。同时，生成网络学习获取第一个网络的输出，并生成整个环境的3D模型——实际上，就是对人工智能看不到的对象和特征进行预测。例如，如果一个表只有三条可见的腿，则模型将包括具有相同大小、形状和颜色的第四条腿。

Botvinick说，反过来，这些预测使系统比标准的深度学习方法学习得更快。 “一个试图预测事物的代理在每一个时间点都会自动得到反馈，因为它可以看到它的预测结果如何。”因此它可以不断更新它的模型，使它们更好。更好的是，这种学习是自我监督的:研究人员不需要在环境中标注任何东西来使其发挥作用，甚至不需要提供奖赏和惩罚。

一个更激进的方法是停止要求网络从头开始学习每一个问题。这种空白记录的方法确实让网络自由地发现了一些研究人员可能从未想到过的表示对象和行为的方法，以及一些完全出乎意料的游戏策略。但人类从来不是从一张白纸开始的:对于几乎所有的任务，他们至少可以依靠一些先前的知识，这些知识是他们通过经验学到的，或者是通过进化硬“塞进”他们的大脑的。例如，婴儿似乎生来就有许多固有的“归纳偏见”，这些偏见促使他们以惊人的速度吸收某些核心概念。到2个月大的时候，他们已经开始掌握直觉物理学的原理，其中包括物体存在的概念，它们倾向于沿着连续的路径移动，当它们接触到时，它们并不只是互相经过。这些婴儿也开始学习直觉心理学的基础知识，其中包括识别面孔的能力，以及认识到世界上存在着的自主移动和行动的力量。

拥有这种内置的感应式偏置大概会帮助深层神经网络同样快速地学习，这就是为什么该领域的许多研究人员现在把它作为优先事项。事实上，仅仅在过去的一两年里，这个领域已经看到了一个潜在的强大的方法，称为图形网络的兴奋。Botvinick说:“这些是深层次的学习系统，它们天生就倾向于将事物表示为对象和关系。” 例如，某些对象（如爪子、尾巴和胡须）可能都属于关系为“is-a-part-of”的较大对象(CAT)。类似地，球A和块B可能具有相互关系”is-next-to"，地球将具有关系"is-in-orbit-around"太阳，等等通过大量其他示例中的任何都可以表示为抽象图，其中的节点对应于对象并且链接到关系。

因此，图形网络是一种神经网络，它将这样的图形作为输入（而不是原始像素或声波），然后学习推理和预测对象及其关系如何随时间演变。（在某些应用中，可以首先使用单独的标准图像识别网络来分析场景并挑选出对象。）

图形网络方法已经证明了快速学习和等同于人类水平掌握各种应用，包括复杂的视频游戏。如果它像研究者希望的那样继续发展下去，可以使训练变得更有效率，从而缓解深度学习中“10000头母牛的问题”。而且，它还可以使网络不那么容易受到敌对性攻击，因为一个将事物表示为对象（而不是像素模式）的系统不会那么容易地被一些噪声或无关的标签所抛弃。

博特维尼克承认，在上述任何一个领域取得根本性进展都不是一件容易的事。但即使如此，他仍然相信“天空是有极限的”。“这些挑战是真实的，”他说，“但它们不是死胡同！”

标签：

机器学习深度学习

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌发布大型数据集训练问答系统，并推出相关挑战

下一篇英特尔开源Nauta，用于运行深度学习模型训练实验

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）