模型:
google/t5-v1_1-small
Google's T5 版本 1.1
T5 Version 1.1 相比原始 T5 模型,包括以下改进- 在前向隐藏层中使用 GEGLU 激活,而不是 ReLU - 详见 here 。
在预训练中关闭了 Dropout(质量提升)。在微调中应重新启用 Dropout。
仅在 C4 上进行预训练,没有混合下游任务。
嵌入层和分类器层之间没有参数共享。
"xl" 和 "xxl" 取代了 "3B" 和 "11B"。模型形状略有不同-更大的 d_model ,较小的 num_heads 和 d_ff 。
注意:T5 版本 1.1 仅在 C4 上进行了预训练,不包括任何监督训练。因此,在用于下游任务之前,必须对该模型进行微调。预训练数据集: C4
其他社区检查点: here
论文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
作者:Colin Raffel,Noam Shazeer,Adam Roberts,Katherine Lee,Sharan Narang,Michael Matena,Yanqi Zhou,Wei Li,Peter J. Liu
转移学习在自然语言处理(NLP)中已经成为一种强大的技术,其中模型首先在数据丰富的任务上进行预训练,然后再在下游任务上进行微调。转移学习的有效性导致了各种方法、方法论和实践的出现。在本文中,我们通过引入一个统一的框架将每个语言问题转化为文本到文本格式,探索了 NLP 转移学习技术的格局。我们的系统研究比较了预训练目标、体系结构、无标签数据集、转移方法和其他因素在数十个语言理解任务上的表现。通过将我们探索的见解与规模和我们的新的“庞大的洁净爬行语料库”相结合,我们在许多摘要、问答、文本分类等基准测试中取得了最先进的结果。为了促进 NLP 转移学习的未来工作,我们发布了我们的数据集、预训练模型和代码。