用人工智能生成的数据，来培训其他人工智能模型

2019年12月20日由 TGS 发表 213418 0

生成式对抗网络(GANs)由生成样本的生成器和试图区分生成样本和真实样本的鉴别器组成，这两部分AI系统有无数的用途，其中之一就是生成合成数据。优步(Uber)的研究人员最近在一篇名为《通过学习加速神经结构搜索的论文中利用了这一点。

这篇论文提出了一种量身定制的GAN——称为生成式教学网络(GTN)——它可以生成数据或训练环境，让模型在接受目标任务测试之前从中学习。该论文指出，与只使用真实数据的方法相比，GTNs帮助加快了9倍的搜索速度，而且与使用“数量级”计算量更少、实现最高性能的最先进架构相比，GTNs更有竞争力。

正如特约作者在一篇博客文章中所解释的，大多数模型搜索需要“大量”资源，因为它们通过在数据集上训练模型来评估模型，直到它们的性能不再提高。这个过程可能会在一个周期内重复数千或更多的模型架构，这在计算方面非常昂贵，并且非常耗时。

一些算法通过在小段时间内只进行训练，并将结果作为真实性能的估计来避免成本，但是这种训练可以通过利用机器学习来进一步加速。其具体方法为——创建训练数据。

GTN通过创建有助于学习过程的不切实际的数据来获得成功。它能够将许多不同类型的对象的信息组合在一起，或者将培训主要集中在最难的示例上，并且能够在实际数据的培训中评估模型。

在实验中，该团队表示，在32步(约0.5秒)的训练中，GTNs训练的模型对流行开源数据集的准确率达到了98.9%，在此期间，他们摄取了4096张合成图像(不到MNIST训练数据集图像的10%)。在另一个数据集上进行评估，在相同性能水平下，模型的学习速度比实际数据快四倍，即使与优化的实际数据学习算法相比也是如此。

此外，在GTN数据上的性能通常被证明是对真实性能的预测——也就是说，仅使用GTN生成的数据，128步就可以获得与实际数据相同的预测能力，而在实际数据上则需要1200步。

步数与时间的意味着什么？答案显而易见，成本节省。

标签：

行业 Uber优步

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Nvidia的TensorRT 7改进了人工智能对话模型的编译器

下一篇 Pixelmator Pro的最新技术：图片放大三倍而不失真

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）