模型:
google/long-t5-tglobal-xl
LongT5模型是在英语语言上进行预训练的。该模型在Guo等人的论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中介绍,并于 the LongT5 repository 首次发布。所有模型的架构和配置可以在 Flaxformer repository 中找到,该论文使用了另一个谷歌研究项目代码库 T5x 。
免责声明:发布LongT5模型的团队未为该模型撰写模型卡片,因此本模型卡片由Hugging Face团队编写。
LongT5模型是在文本生成的文本到文本去噪生成设置( Pegasus-like generation pre-training )下进行预训练的编码器-解码器Transformer模型。LongT5模型是 T5 model 的扩展,它可以使用两种不同的高效注意机制之一:(1)局部注意力或(2)瞬时全局注意力。注意力稀疏模式的使用使得模型能够高效处理输入序列。
LongT5模型在针对需要处理长输入序列(最多16,384个标记)的文本生成任务(摘要生成,问题回答)上特别有效。
该模型主要用于在监督数据集上进行微调。请参阅 model hub ,查找您感兴趣的任务的微调版本。
from transformers import AutoTokenizer, LongT5Model tokenizer = AutoTokenizer.from_pretrained("google/long-t5-tglobal-xl") model = LongT5Model.from_pretrained("google/long-t5-tglobal-xl") inputs = tokenizer("Hello, my dog is cute", return_tensors="pt") outputs = model(**inputs) last_hidden_states = outputs.last_hidden_state
@article{guo2021longt5, title={LongT5: Efficient Text-To-Text Transformer for Long Sequences}, author={Guo, Mandy and Ainslie, Joshua and Uthus, David and Ontanon, Santiago and Ni, Jianmo and Sung, Yun-Hsuan and Yang, Yinfei}, journal={arXiv preprint arXiv:2112.07916}, year={2021} }