深度学习词汇表(三)
2019年04月14日 由 sunlei 发表
702376
0
这已经是深度学习词汇表的第三篇文章,天知道还有多少深度学习的词汇等待着我们去了解和学习。我感觉我会一直连载下去,直到天荒地老……
往期内容传送门:
深度学习词汇表(一)
深度学习词汇表(二)
梯度爆炸问题Exploding Gradient Problem
梯度爆炸问题与梯度消失问题相反。在深度神经网络中,梯度可能在反向传播过程中爆炸,导致数字溢出。处理梯度爆炸的一种常用技术是执行梯度裁剪。
微调Fine-Tuning
微调是指用使用来自另一个任务的参数(如无监督的训练任务)初始化网络,然后根据手头的任务更新这些参数的技术。例如,NLP体系结构通常使用预先培训过的单词嵌入,如word2vec,然后在基于特定任务(如情绪分析)的训练期间更新这些单词嵌入。
梯度裁剪Gradient Clipping
梯度裁剪是一种在非常深的网络中防止梯度爆炸的技术,通常是递归神经网络。梯度裁剪有多种方法,但最常用的方法是根据new_gradients = gradients * threshold / l2_norm(gradient)对参数向量L2范数超过一定阈值时的梯度进行归一化。
GloVe模型
Glove是一种无监督学习算法,用于获取单词的矢量表示(嵌入)。Glove向量与word2vec具有相同的用途,但由于在共现统计上受到训练,因此具有不同的向量表示。
GoogleLeNet网络
GoogleLeNet是2014年ImageNet中ILSVRC14竞赛的冠军,和VGG网络是同一届, 网络采用初始模块来降低网络参数,提高网络内部计算资源的利用率。
GRU
GRU是LSTM网络的简化版本,参数更少。就像LSTM网络一样,它使用一个门控机制,通过防止渐变问题的消失,使RNNs能够有效地学习远程依赖。GRU由一个重置和更新门组成,该门决定在当前时间步中保留旧内存的哪一部分,还是使用新值更新。
Highway Layer
Highway Layer(paper)是一种神经网络层,它利用门控机制来控制通过这一层的信息流。叠加多个Highway Layer可以训练非常深的网络。Highway Layer的工作原理是学习一个门控函数,该函数选择输入的哪些部分要通过,以及哪些部分要通过转换函数,例如标准仿射层。Highway Layer基本公式为T * h(x) + (1 - T) * x,其中T为已知的门控函数,取值范围为0 ~ 1,h(x)为任意输入变换,x为输入。注意,所有这些必须具有相同的大小。
ICML
机器学习领域顶级会议
。
ILSVRC竞赛
ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。在过去的几年里,深度学习技术使错误率显著降低,从30%降到5%以下,超过了人类在几个分类任务上的表现。
Inception Module
卷积神经网络中使用Inception模块,通过堆叠1×1个卷积进行降维,实现更高效的计算和更深层次的网络。