深度学习词汇表（三）

2019年04月14日由 sunlei 发表 702509 0

这已经是深度学习词汇表的第三篇文章，天知道还有多少深度学习的词汇等待着我们去了解和学习。我感觉我会一直连载下去，直到天荒地老……

往期内容传送门：

深度学习词汇表（一）

深度学习词汇表（二）

梯度爆炸问题Exploding Gradient Problem

梯度爆炸问题与梯度消失问题相反。在深度神经网络中，梯度可能在反向传播过程中爆炸，导致数字溢出。处理梯度爆炸的一种常用技术是执行梯度裁剪。

微调Fine-Tuning

微调是指用使用来自另一个任务的参数（如无监督的训练任务）初始化网络，然后根据手头的任务更新这些参数的技术。例如，NLP体系结构通常使用预先培训过的单词嵌入，如word2vec，然后在基于特定任务（如情绪分析）的训练期间更新这些单词嵌入。

梯度裁剪Gradient Clipping

梯度裁剪是一种在非常深的网络中防止梯度爆炸的技术，通常是递归神经网络。梯度裁剪有多种方法，但最常用的方法是根据new_gradients = gradients * threshold / l2_norm(gradient)对参数向量L2范数超过一定阈值时的梯度进行归一化。

GloVe模型

Glove是一种无监督学习算法，用于获取单词的矢量表示（嵌入）。Glove向量与word2vec具有相同的用途，但由于在共现统计上受到训练，因此具有不同的向量表示。

GoogleLeNet网络

GoogleLeNet是2014年ImageNet中ILSVRC14竞赛的冠军,和VGG网络是同一届, 网络采用初始模块来降低网络参数，提高网络内部计算资源的利用率。

GRU

GRU是LSTM网络的简化版本，参数更少。就像LSTM网络一样，它使用一个门控机制，通过防止渐变问题的消失，使RNNs能够有效地学习远程依赖。GRU由一个重置和更新门组成，该门决定在当前时间步中保留旧内存的哪一部分，还是使用新值更新。

Highway Layer

Highway Layer(paper)是一种神经网络层，它利用门控机制来控制通过这一层的信息流。叠加多个Highway Layer可以训练非常深的网络。Highway Layer的工作原理是学习一个门控函数，该函数选择输入的哪些部分要通过，以及哪些部分要通过转换函数，例如标准仿射层。Highway Layer基本公式为T * h(x) + (1 - T) * x，其中T为已知的门控函数，取值范围为0 ~ 1,h(x)为任意输入变换，x为输入。注意，所有这些必须具有相同的大小。

ICML

机器学习领域顶级会议。

ILSVRC竞赛

ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。在过去的几年里，深度学习技术使错误率显著降低，从30%降到5%以下，超过了人类在几个分类任务上的表现。

Inception Module

卷积神经网络中使用Inception模块，通过堆叠1×1个卷积进行降维，实现更高效的计算和更深层次的网络。

标签：

学习深度学习词汇

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇可解释的机器学习：从任何机器学习模型中提取可理解的见解

下一篇 PlaNet深度强化学习网络解析

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）