英特尔开发模型训练新技术，效率更高且不影响准确性

2019年06月13日由老张发表 593830 0

一般而言，AI模型的大小与其训练时间相关，因此较大的模型需要更多的时间来训练。通过修剪可以优化数学函数（或神经元）之间的连接，从而减小其整体尺寸而不会影响准确性，但是训练之后才能进行修剪。

英特尔的研究人员设计了一种技术，从相反的方向进行训练，以一个紧凑的模型开始，在训练期间根据数据修改结构。

他们声称，与从一个大模型开始然后进行压缩相比，它具有更高的可伸缩性和计算效率，因为训练直接在紧凑模型上进行。与过去的尝试不同，它能够训练一个性能相当于大型修剪模型的小模型。

大多数AI系统的核心神经网络由神经元组成，神经元呈层状排列，并将信号传递给其他神经元。这些信号是数据或输入的产物，输入到神经网络中，从一层传递到另一层，然后通过调整每个连接的突触权重来缓慢地调整网络。随着时间的推移，该网络从数据集中提取特征，并识别跨样本趋势，最终学会做出预测。

神经网络不会摄取原始图像，视频，音频或文本。相反，来自训练语料库的样本被代数转换为多维数组，如标量（单个数字），向量（有序的标量数组）和矩阵（标量排列成一列或多列和一行或多行）。第四种实体类型封装标量、向量和矩阵张量，用于描述有效的线性变换或关系。

团队在论文中描述了该方案，他们训练了一种深度卷积神经网络（CNN），其中大多数层具有稀疏权重张量，或者包含大多数零值的张量。所有这些张量都以相同的稀疏度级别初始化，非稀疏参数（具有一系列值的函数参数）用于大多其他的层。

在整个训练过程中，当参数在张量内部或跨张量移动时，网络中的非零参数总数保持不变，每几百次训练迭代进行一次，分两个阶段进行，修剪阶段之后紧接着是增长阶段。基于大小的剪枝的类型用于删除具有最小权值的链接，并且在训练期间跨层重新分配参数。

对于相同的模型尺寸，该方法比静态方法获得了更高的准确性，同时需要的训练要少得多，并且它比以前的动态方法准确性更高。

实验表明，在训练过程中探索网络结构对于达到最佳准确性至关重要。如果构造一个静态稀疏网络，复制动态参数化方案发现的稀疏网络的最终结构，那么这个静态网络将无法训练到相同的精度水平。

标签：

行业英特尔

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Clarifai：反馈循环长期保持高质量的AI结果

下一篇约克大学利用AI预测Dota 2比赛中5秒内会死亡的角色，模型已开源

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）