Uber的综合训练数据将深度学习速度提高了9倍
2020年01月22日 由 KING 发表
104141
0
Uber AI实验室已经开发了一种称为生成教学网络(GTN)的算法,该算法可为神经网络生成综合训练数据,与使用真实数据相比,该方法可使网络的训练速度更快。利用这些综合数据,Uber加快了9倍的神经体系结构搜索(NAS)深度学习优化过程。在arXiv上发表的一篇论文中,团队描述了该系统和一系列实验。GTN受神经体系结构搜索(NAS)问题的启发,该体系结构可以训练许多不同的深度学习模型结构,并选择对一组测试数据表现最佳的模型。尽管一种典型的方法是在完整数据集上针对多个迭代(或历元)训练每个模型,但这既耗时又昂贵。但是,可以在更短的时间内根据GTN的综合数据对模型进行训练,从而根据实际训练数据对模型的真实效果进行估算。因此,可以快速评估模型并缩短搜索时间。
研究人员表示:GTN神经架构搜索(GTN-NAS)与最先进的NAS方法相比具有竞争优势,该方法可实现最佳性能,同时使用的计算量要比典型NAS方法少几个数量级。
神经体系结构搜索是自动化机器学习(AutoML)的活跃研究领域。NAS的一个缺点是,它需要训练许多深度学习模型来确定哪种模型性能最佳。许多研究集中在有效地探索搜索空间上,这意味着该系统将训练较少的模型。相反,Uber的系统产生了一个新的数据集,该数据集允许对每个模型进行更少的迭代训练,从而使系统可以在相同的时间内尝试更多的模型。训练模型进行较少迭代的问题在于,在训练的早期阶段,大多数模型的性能均较差,并且需要多次迭代才能确定模型的真实性能。但是,研究表明,并非所有训练样本都是相同的,可以通过仔细选择输入样本来加快训练速度。Uber的想法是使用元学习来生成训练样本。类似于生成对抗网络(GAN),Uber的GTN训练了发电机神经网络,以为学习者网络生成训练样本。对学习者的真实测试数据进行评估,以产生“元损失”,而元损失的梯度会更新生成器。使用这项技术,Uber创建了一个生成器,该生成器生成了用于训练计算机视觉(CV)系统的样本,以识别MNIST数据集中的数字。CV系统仅需32个培训步骤就可以达到98.9%的准确性。在CIFAR10数据集上进行的类似实验中,Uber表明他们可以使用合成数据进行128个训练步骤来预测模型性能,而使用真实数据可以进行1200个步骤来预测模型性能,速度提高了9倍。
论文的作者Jeff Clune在推特上发布了一张由系统生成的合成图像数据的图片,称其为“异类和不现实”。他还说:
GTN生成的数据可以替代神经体系结构搜索中的真实数据,因此可以显着加快任何NAS算法的速度。到目前为止,我们只显示了适用于Random Search-NAS的内容,但我们希望看到其他人使用更高级的NAS方法来尝试!