亚马逊研究人员减少了AI转移学习所需的数据
2019年10月29日 由 KING 发表
890407
0
跨语言学习是一种AI技术,即以一种语言训练自然语言处理模型,然后以另一种语言进行训练。已经证明,经过重新训练的模型可以胜过使用第二语言从头训练的模型,这可能就是为什么亚马逊Alexa部门的研究人员投入大量时间进行研究的原因。
在预定于今年自然语言处理经验方法会议上发表的论文中,Alexa AI自然语言理解小组的两位科学家Quynh Do和Judith Gaspers及其同事研究出了一种数据选择技术,该技术可使所需的训练数据量减少一半。他们表示该技术成功提高了目标语言中模型的整体性能。
Do和Gaspers在博客中写道:“有时原语言中的数据非常丰富,以至于用所有这些数据来训练传输模型都是不切实际的。此外,原语言和目标语言之间的语言差异意味着需要完善原语言中的训练数据,使其统计模式与目标语言的统计模式更好地匹配。”在实验过程中,Do,Gaspers及其团队采用了两种方法将原语言数据集切成两半:数据选择技术和随机采样。他们在两个减半的数据集和整个数据集上对单独的模型进行了预训练,之后,他们在一个小的数据集上对模型进行了微调。
Do和Gaspers指出,同时对所有模型进行了训练,以识别意图(请求的动作)和填充位置(意图所作用的变量),并且它们将多语言嵌入作为输入(映射了来自不同语言的一个单词或单词序列到多维空间中的单个点)以提高模型的准确性。该团队将每个输入单词的多语言嵌入与字符级嵌入(对有关单词的前缀,后缀和词根的信息进行编码)组合在一起,并且他们利用在大型文本语料库上训练的语言模型来选择要馈送到原语言的数据转移模型。在研究人员设计的系统中,双语词典将原数据集中的每个发音转换为目标语言中的一串字。四种语言模型应用于生成的字符串,而三字母组模型处理字符嵌入。对于由四种语言模型计算出的概率总和中的每种语言,仅选择那些产生最高分数的语言。
为了评估他们的方法,团队首先让模型把英语转换为德语,并使用不同数量的目标语言训练数据(分别为10,000和20,000语音,而完整的原语言数据集中为数百万的语音)。然后,他们用三种不同的语言(英语,德语和西班牙语)训练了转移模型,然后将其转移到法语(目标语言有10,000和20,000种话语)。他们声称,传递模型优于仅对目标语言进行过训练的基线模型,相对于仅对目标语言进行过训练的模型,使用新型数据选择技术训练的模型效果更好。