Uber找到神经网络再训练的新出路——区分可塑性
2018年04月11日 由 浅浅 发表
282260
0
神经网络作为Uber机器学习系统的基础,在解决复杂问题——包括图片识别、语言理解和人机博弈方面均表现出色。不过这些神经网络通过梯度下降法到达一个停止点,逐步基于其多重训练中的表现来调整网络连接,而一旦训练结束,网络被固化,连接无法再改变,阻碍了之后的重训(仍需许多例子),也就是说,这一网络在训练结束后便终止了学习。
相比之下,生物大脑具有可塑性,神经元间的连接能够不断适应变化的生活,使生物能够迅速高效从持续的经验中学习。大脑不同区域和连接的可塑性水平不同,正是上万年进化过程的选择,让生物在有限的生命中能够高效学习。这种持续学习的能力已足够使生物适应变化莫测的环境,很少需要额外的资料。人类可以迅速记住从未见过的图样,也可以在全新的环境中通过少量的训练迅速习得新的习惯。
为了使智能人工代理也能够拥有相似的能力,Uber AI实验室开发了新的方法——
区分可塑性(Differentiable Plasticity),通过梯度下降法训练可塑性连接行为,使先前练成的神经网络适应新的情境。可塑的神经网络在进化计算技术的研究中是长久的领域,这样的方法首次显示出通过梯度下降法能够自行调节可塑性的可能。基于梯度的方法出现在许多近期AI近期的重大突破中,包括图像识别、机器翻译、Atari游戏以及Go playing,可塑性神经网络能够经得起梯度下降法的检验,从而使两种处理都更为有效。
区分可塑性如何起作用
每个连接都有初始重量,同时也有决定连接可塑性多少的系数。更确切来说,代表神经元的
i和其激活函数
yi要进行如下计算:
除了输入权值有固定分量(图中绿色部分)以及可塑性分量(图中红色部分),第一个方程式对于神经网络单元是典型的激活函数运算。可塑性分量中
Hi,j根据输入和输出自变化(正如第二个方程式所指定的,要注意其他公式化也是可能的,就像这篇文章讨论的那样。)
在最初训练期,梯度下降法调整了结构参数
wi,j和
αi,j,它们决定着固定和可塑性分量的大小。因此,在最初的训练后,智能人工代理可以自动学习之后的经验,因为每个连接的可塑性成分由神经活动性充分塑造以储存信息,引起某些学习方法的联想。
证明区分可塑性
为了证明区分可塑性的潜力,研究者选取了几种有挑战性的任务,需要对随机的刺激物进行快速学习。
- 在图像重建任务中(如图1),神经网络识记了一组从未出现过的自然图片;之后又展示了其中一张图片,不过图片只有一半,神经网络必须从记忆中补全失去的那一半。区分可塑性能够有效训练大的神经网络,可以用无数的参数来完成这个任务。重要的是无可塑性的连接的传统神经网络(包括最先进的可反复建构的LSTMs)无法完成这项任务,甚至需要更多的时间来学习已经精简很多的任务。
图1:图片补全任务(每一行都是单独的材料)
在展示了三幅图片后,向神经网络出示不全的图片,并让其根据记忆补全。无可塑性的神经网络(包括LSTMs)无法完成任务。
图片来源:CIFAR10数据库
- 研究者还训练可塑性神经网络完成Omniglot任务(即标准学会学习任务),需要学习从每个单独的展示中识记一系列全新的手写符号。另外,这一方法也可以应用到强化学习问题中:在迷宫探索任务中,人工代理必须发现、识记并重复迷宫中每个放置了奖励的位置(如图2),结果可塑性神经网络远胜过无可塑性神经网络。这种方法下,简单为神经网络增加可塑性系数需要真正的全新方法——有时也可是现有最佳的方法,去解决大量需要从持续经验中学习的问题。
图2:迷宫探索任务
人工代理(黄色方形)因尽可能多地正确找到奖励位置(绿色方形)受到奖励,每次当代理找到奖励位置后会被传送到随机位置。上图中,代理的走向基本上是随机的。下图中,在30万次探索后,代理学会记忆奖励位置并能够辨明方向找到位置。
展望
实际上区分可塑性提供了一种新型的生物启发式方法,可用于解决“学会学习”或“元学习”的经典问题。当然,这种方法也相当灵活,用梯度下降法处理一个基本的结构单元(可塑性连接),可以通过多种强有力的方式加以利用,如同上文中多样任务的例子那样。
此外,这种方法打开了多种全新研究的大门。例如,我们能不能像LSTMs那样,通过使改变连接可塑性改善现存的复杂神经网络结构?如果神经网络自身可以控制连接可塑性,正如生物大脑通过神经调质那样调控,又该怎样做呢?可塑性是否能够比单纯重现*提供更高效的记忆。
*重现在神经元活动过程中储存信息,而可塑性是在更多的神经连接中储存。