模型:

t5-small

数据集:

c4 3Ac4

语言:

类库:

PyTorch TensorFlow JAX Rust Safetensors Transformers ONNX

许可:

apache-2.0

其他:

t5 文生文摘要生成 AutoTrain Compatible text-generation-inference

预印本库:

arxiv:1805.12471 arxiv:1708.00055 arxiv:1704.05426 arxiv:1606.05250 arxiv:1808.09121 arxiv:1810.12885 arxiv:1905.10044 arxiv:1910.09700

任务:

翻译

模型介绍文件清单

英文

T5 Small模型的模型卡

模型详情

模型描述

Text-To-Text Transfer Transformer (T5)的开发人员 write ：

通过T5，我们建议将所有NLP任务重新构建为统一的文本对文本格式，其中输入和输出始终为文本字符串，而不像BERT风格的模型那样只能输出类标签或输入的一部分。我们的文本对文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数。

T5-Small是具有6000万参数的检查点。

开发者：Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。详见 associated paper 和 GitHub repo
模型类型：语言模型
语言（NLP）：英语、法语、罗马尼亚语、德语
许可证：Apache 2.0
相关模型： All T5 Checkpoints
获取更多信息的资源：

应用

直接使用和下游使用

开发者在 blog post 中写道，该模型：

我们的文本对文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数，包括机器翻译、文档摘要、问答和分类任务（如情感分析）。我们甚至可以通过训练它预测数值的字符串表示而不是数值本身，将T5应用于回归任务。

详见 blog post 和 research paper 以获取更多详细信息。

超范围使用

需要更多信息。

偏见、风险和限制

需要更多信息。

建议

需要更多信息。

训练详情

训练数据

该模型在 Colossal Clean Crawled Corpus (C4) 上进行了预训练，该数据集是在与T5相同的 research paper 背景下开发和发布的。

该模型在无监督任务（1.）和有监督任务（2.）的多任务混合中进行了预训练。其中使用了以下数据集进行（1.）和（2.）：

用于无监督去噪目标的数据集：

C4
Wiki-DPR

用于有监督文本对文本语言建模目标的数据集

句子接受性判断
- CoLA Warstadt et al., 2018
情感分析
- SST-2 Socher et al., 2013
释义/句子相似性
- MRPC Dolan and Brockett, 2005
- STS-B Ceret al., 2017
- QQP Iyer et al., 2017
自然语言推理
- MNLI Williams et al., 2017
- QNLI Rajpurkar et al.,2016
- RTE Dagan et al., 2005
- CB De Marneff et al., 2019
句子完成
- COPA Roemmele et al., 2011
词义消歧
- WIC Pilehvar and Camacho-Collados, 2018
问答
- MultiRC Khashabi et al., 2018
- ReCoRD Zhang et al., 2018
- BoolQ Clark et al., 2019

训练过程

在他们的 abstract 中，模型开发人员写道：

在本文中，我们通过引入一个统一的框架将每个语言问题转换为文本对文本格式，探索了NLP的迁移学习技术领域。我们的系统性研究在数十个语言理解任务上比较了预训练目标、架构、无标注数据集、迁移方法和其他因素。

引入的框架是T5框架，其中涉及到将论文中研究的方法汇总到一起的训练过程。详见 research paper 以获取更多详细信息。

评估

测试数据、因素和指标

开发人员在24个任务上对模型进行了评估，详见 research paper 以获取全部细节。

结果

T5-Small的完整结果见 research paper 的第14表。

环境影响

可以使用在 Lacoste et al. (2019) 中提出的 Machine Learning Impact calculator 来估计碳排放量。

硬件类型：Google Cloud TPU Pods
使用小时数：需要更多信息
云提供商：GCP
计算区域：需要更多信息
排放的碳量：需要更多信息

引用

BibTeX：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

模型卡作者

此模型卡由Hugging Face团队撰写。

如何开始使用该模型

使用以下代码即可开始使用该模型。

点击扩展

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5Model.from_pretrained("t5-small")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

详细了解。

作者:

None

数据集大小:

2.09 GB

T5 Small模型的模型卡

目录

模型详情

模型描述

应用

直接使用和下游使用

超范围使用

偏见、风险和限制

建议

训练详情

训练数据

训练过程

评估

测试数据、因素和指标

结果

环境影响

引用

模型卡作者

如何开始使用该模型