模型:
t5-3b
T5-3B 是拥有 30 亿参数的检查点,是 Text-To-Text Transfer Transformer(T5)模型的一部分。T5 的开发人员进行了如下描述:
通过 T5,我们提出将所有 NLP 任务重新构建为统一的文本到文本格式,其中输入和输出始终是文本字符串,而不是只能输出类别标签或输入文本的片段的 BERT 风格模型。我们的文本到文本框架使我们能够在任何 NLP 任务上使用相同的模型、损失函数和超参数。
有关该模型的详细信息,请参阅 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li 和 Peter J. Liu 的相关论文( associated paper 和 GitHub repo )。
开发人员在一份 blog post 中写道:
我们的文本到文本框架使我们能够在任何 NLP 任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以将 T5 应用于回归任务,通过训练它预测数字的字符串表示而不是数字本身。
有关更多详细信息,请参阅 blog post 和 research paper 。
需要更多信息。
需要更多信息。
需要更多信息。
该模型在与 T5 相同的 research paper 中开发和发布的背景下,进行了预训练。
该模型在无监督任务(1.)和监督任务(2.)的多任务混合中进行了预训练。具体使用的数据集如下:
开发人员在他们的 abstract 中写道:
本文探索了将每个语言问题转化为文本到文本格式的转移学习技术。我们的系统性研究比较了几十个语言理解任务中的预训练目标、架构、无标签数据集、转移方法和其他因素。
引入的 T5 框架将论文中研究的方法融合到一个训练过程中。有关详细信息,请参阅该论文( research paper )。
开发人员对该模型进行了 24 个任务的评估,请参阅文献 research paper 了解详细信息。
T5-3B 的完整结果,请参阅文献 research paper 的表格 14。
可以使用文献 Lacoste et al. (2019) 中提出的方法来估算碳排放。
BibTeX 引用:
@article{2020t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {Journal of Machine Learning Research}, year = {2020}, volume = {21}, number = {140}, pages = {1-67}, url = {http://jmlr.org/papers/v21/20-074.html} }
APA 引用:
本模型卡片由 Hugging Face 团队编写。
请参阅 Hugging Face T5 文档和模型开发人员创建的 Colab Notebook ,以获取有关如何开始使用此检查点的更多上下文信息。