英文

Google's T5 版本1.1 - LM-适应

版本1.1 - LM-适应

T5 Version 1.1 - LM Adapted 相对于原始的 T5 model 提供了以下改进:

  • 前馈隐藏层中使用GEGLU激活函数,而不是ReLU - 参见 here

  • 在预训练中关闭了Dropout(质量提升)。在微调期间应重新启用Dropout。

  • 只在C4上进行了预训练,未混合下游任务。

  • 嵌入层和分类器层之间不共享参数。

  • 使用"xl"和"xxl"代替"3B"和"11B"。模型形状有些不同,更大的d_model和较小的num_heads和d_ff。

此版本还是在去噪和语言建模目标上进行预训练的。

具体而言,这个检查点是从 T5 Version 1.1 - XXL 初始化,并在 T5 paper 中讨论的LM目标上额外训练了100K步。这种适应性提高了模型在提示调整中的能力。

注意:T5版本1.1 - LM适应的一个常用微调版本是 BigScience's T0pp

预训练数据集: C4

其他社区检查点: here

论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

迁移学习是指模型在进行下游任务微调之前首先对数据丰富的任务进行预训练的技术,它已经成为自然语言处理(NLP)中强大的技术之一。迁移学习的有效性引发了各种方法、方法论和实践的多样性。在本文中,我们通过引入一个将每个语言问题转化为文本到文本格式的统一框架,探索了NLP迁移学习技术的领域。我们的系统研究比较了预训练目标、体系结构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的表现。通过将我们的探索洞察力与规模和我们的新“巨型干净爬行语料库”相结合,我们在涵盖摘要、问答、文本分类等多个基准测试上取得了最先进的结果。为了促进NLP迁移学习的未来研究,我们发布了我们的数据集、预训练模型和代码。