英文

Google's T5 版本1.1 - LM-适应

版本1.1 - LM-适应

T5 Version 1.1 - LM Adapted 相对于原始版本 T5 model ,包含以下改进:

  • 在前馈隐藏层中使用GEGLU激活,而不是ReLU-见 here

  • 关闭了预训练中的Dropout(质量提升)。在微调期间应重新启用Dropout。

  • 仅在C4上进行了预训练,而没有混合下游任务。

  • 嵌入层和分类器层之间没有参数共享

  • "xl"和"xxl"代替了"3B"和"11B"。模型形状有些不同-较大的d_model和较小的num_heads和d_ff。

并且在去噪和语言模型目标上进行了预训练。

具体来说,该检查点是从 T5 Version 1.1 - XL 初始化的,然后在 T5 paper 中讨论的语言模型目标上进行了额外的10万步训练。这种适应提高了模型用于提示调整的能力。

注意 :T5 Version 1.1 - LM Adapted 模型的一个受欢迎的微调版本是 BigScience's T0pp

预训练数据集: C4

其他社区检查点: here

论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

迁移学习,在将模型在丰富数据的任务上预训练后,在下游任务上进行微调,成为自然语言处理(NLP)中一种强大的技术。迁移学习的有效性产生了多种方法、方法论和实践。在本文中,我们通过引入一个将每个语言问题转换为文本到文本格式的统一框架,探索了NLP的迁移学习技术领域。我们的系统研究在数十个语言理解任务上比较了预训练目标、架构、无标签数据集、迁移方法和其他因素。通过将我们的探索结果与规模和我们的新的“巨大的干净爬取语料库”相结合,我们在许多摘要、问答、文本分类等基准测试中取得了最先进的结果。为了促进NLP迁移学习的未来研究,我们发布了我们的数据集、预训练模型和代码。