模型:
t5-base
Text-To-Text Transfer Transformer(T5)的开发人员 write :
使用T5,我们提出将所有NLP任务重新构建为统一的文本到文本格式,其中输入和输出始终为文本字符串,而不是BERT风格的模型只能输出类别标签或输入的一部分。我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数。
T5-Base是具有2.2亿个参数的检查点。
开发者在 blog post 中写道模型:
我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(例如情感分析)。我们甚至可以通过训练模型预测数字的字符串表示形式而不是数字本身,将T5应用于回归任务。
有关详细信息,请参阅 blog post 和 research paper 。
需要更多信息。
需要更多信息。
需要更多信息。
模型在 Colossal Clean Crawled Corpus (C4) 上进行了预训练,该数据集是在与T5相同的 research paper 背景下开发和发布的。
该模型在多任务无监督(1.)和监督任务(2.)的混合数据集上进行了预训练。这些数据集用于(1.)和(2.):
在 abstract 中,模型开发人员写道:
本文通过引入一种将每个语言问题转换为文本到文本格式的统一框架,探索了NLP的迁移学习技术。我们的系统研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的效果。
引入的框架,T5框架,涉及训练过程将该论文中研究的方法整合在一起。有关详细信息,请参阅 research paper 。
开发者在 research paper 上对模型进行了24个任务的评估,具体细节请参阅 research paper 。
T5-Base的完整结果,请参阅 research paper ,表14。
可以使用 Machine Learning Impact calculator 中介绍的 Lacoste et al. (2019) 来估算碳排放量。
BibTeX:对
@article{2020t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {Journal of Machine Learning Research}, year = {2020}, volume = {21}, number = {140}, pages = {1-67}, url = {http://jmlr.org/papers/v21/20-074.html} }进行引用
APA:
本模型卡片由Hugging Face团队撰写。
使用下面的代码开始使用模型。
单击展开from transformers import T5Tokenizer, T5Model tokenizer = T5Tokenizer.from_pretrained("t5-base") model = T5Model.from_pretrained("t5-base") input_ids = tokenizer( "Studies have been shown that owning a dog is good for you", return_tensors="pt" ).input_ids # Batch size 1 decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids # Batch size 1 # forward pass outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids) last_hidden_states = outputs.last_hidden_state
有关更多示例,请参阅 Hugging Face T5 文档和由模型开发人员创建的 Colab Notebook 。