IBM的Lambada AI为文本分类器生成训练数据
2019年11月15日 由 KING 发表
895362
0
如果数据科学家缺乏足够的数据来训练机器学习模型,该怎么办?
IBM Research的研究人员在新发表的论文中主张使用合成数据。他们使用了经过预训练的机器学习模型来人工合成用于文本分类任务的新标签数据。他们表示这种方法被称为基于语言模型的数据增强(简称Lambada),可提高分类器在各种数据集上的性能,并显着提高了最新的数据增强技术的水平。 根据目前的情况,要寻找适合的分类器模型,可能需要大量的标记数据。但是,在许多情况下,尤其是在为特定应用开发AI系统时,标记数据很少且获取成本很高。
研究人员指出,在文本域中生成合成训练数据比在视觉域中更具挑战性,因为在更简单的方法中使用的转换通常会使文本失真,从而使其在语法和语义上不正确。因此,大多数文本数据增强技术(包括本文中详细介绍的技术)都涉及用同义词替换单个单词,删除单词或更改单词顺序。
Lambada利用生成模型(OpenAI的GPT)对大型文本进行了预训练,使其能够捕获语言结构,从而生成连贯的句子。研究人员在现有的小型数据集上微调了他们的模型,并使用微调的模型来合成新的带标签句子。相应地,他们在上述数据集上训练了分类器,并对其进行了过滤,从而在对现有数据和合成数据进行重新训练之前,仅保留看起来“足够定性”的数据。为了验证他们的方法,研究人员通过运行实验在三个数据集上测试了三个不同的分类器:BERT、支持向量机和一个长短期记忆网络。他们在每个分组改变了训练样本。所讨论的语料库包含有关航班相关信息的查询,几个类别的开放域和基于事实的问题,以及来自电信客户支持系统的数据。
他们报告说,Lambada在小数据集上静态地提高了所有三个分类器的性能,这部分归功于其对每个类别的样本数量的控制。他们说,这些控件使他们能够投入更多的时间来为原始数据集中代表性不足的类别生成样本。
IBM的研究人员表示:“我们的扩充框架不需要其他未标记的数据,对于大多数分类器而言,与简单的弱标记方法相比LAMBADA的准确性更高。显然,与从原始数据集中获取的样本相比,生成的数据集对提高分类器的准确性做出了更大的贡献。”