英文

Google's T5 版本 1.1

版本 1.1

T5 Version 1.1 相比于原始的 T5 模型,包含以下改进- 在前向隐藏层中使用 GEGLU 激活函数,而不是 ReLU - 参见 here

  • 在预训练中关闭了 Dropout(提高了质量)。在微调过程中应重新启用 Dropout。

  • 只在 C4 上进行了预训练,没有混合下游任务。

  • 嵌入层和分类器层之间没有参数共享。

  • "xl" 和 "xxl" 取代了 "3B" 和 "11B"。模型结构稍有不同 - 更大的 d_model 和较小的 num_heads 和 d_ff 。

注意:T5 版本 1.1 只在 C4 上进行了排除任何监督训练的预训练。因此,在将其用于下游任务之前,必须对该模型进行微调。预训练数据集: C4

其他社区检查点: here

论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者:Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu

摘要

迁移学习在自然语言处理(NLP)中已经成为一种强大的技术,其中模型首先在数据丰富的任务上进行预训练,然后在下游任务上进行微调。迁移学习的有效性催生出多种方法、方法论和实践。在本文中,我们通过引入一个统一的框架将每个语言问题转化为文本到文本格式,探索了 NLP 中迁移学习技术的领域。我们的系统研究比较了几十个语言理解任务中的预训练目标、架构、无标签数据集、迁移方法和其他因素。通过将我们的探索洞察力与规模和我们的新的“巨型清洁爬取语料库”相结合,我们在许多涵盖摘要、问答、文本分类等基准测试上取得了最先进的结果。为了促进日后的 NLP 迁移学习工作,我们发布了我们的数据集、预训练模型和代码。