google/t5-v1_1-large | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

google/t5-v1_1-large

任务:

文生文

类库:

PyTorch TensorFlow JAX Transformers

数据集:

c4 3Ac4

语言:

其他:

t5 AutoTrain Compatible text-generation-inference

预印本库:

arxiv:2002.05202 arxiv:1910.10683

许可:

apache-2.0

模型介绍文件清单

英文

Google's T5 版本 1.1

版本 1.1

T5 Version 1.1 相较于原始的 T5 模型有以下改进- 前馈隐藏层采用 GEGLU 激活函数，而非 ReLU - 参见 here 。

预训练时关闭了 Dropout （质量提升）。在微调中应重新启用 Dropout 。
仅在 C4 上进行预训练，不混合下游任务。
embedding 层和分类器层之间不共享参数
"xl" 和 "xxl" 取代了 "3B" 和 "11B"。模型结构稍有不同 - 更大的 d_model ，较小的 num_heads 和 d_ff 。

注意：T5 版本 1.1 仅在 C4 上进行了预训练，不包括任何监督训练。因此，在使用下游任务之前，需要对该模型进行微调。预训练数据集： C4

其他社区检查点： here

论文： Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

作者： Colin Raffel，Noam Shazeer，Adam Roberts，Katherine Lee，Sharan Narang，Michael Matena，Yanqi Zhou，Wei Li，Peter J. Liu

摘要

转移学习是指在下游任务微调之前，先预训练模型在数据丰富的任务上，已经成为自然语言处理（NLP）中一种强大的技术。转移学习的有效性催生了各种方法、方法论和实践。在本文中，我们通过引入一个统一的框架，将每个语言问题转换为一个文本到文本的格式，从而探索了 NLP 转移学习技术的领域。我们的系统化研究比较了预训练目标、架构、无标签数据集、转移方法和其他因素在数十个语言理解任务上的表现。通过将我们探索的见解与规模和我们的新的“巨大干净爬行语料库”相结合，我们在涵盖摘要、问答、文本分类等多个基准测试中取得了最先进的结果。为了促进 NLP 转移学习的未来工作，我们发布了我们的数据集、预训练模型和代码。

作者:

Google AI

数据集大小:

8.75 GB