T5-base 在 SQuAD 上进行的问题生成微调

Google's T5 在 SQuAD v1.1 上进行了问题生成的微调，只需将回答添加到上下文之前。

T5 的详细信息

T5 模型是由 Colin Raffel，Noam Shazeer，Adam Roberts，Katherine Lee，Sharan Narang，Michael Matena，Yanqi Zhou，Wei Li，Peter J. Liu 在 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 中提出的，摘要如下：

迁移学习是一种先在数据丰富的任务上进行预训练，然后在下游任务上进行微调的强大技术，在自然语言处理（NLP）领域得到了广泛应用。迁移学习的有效性催生了各种方法、方法论和实践。在本文中，我们通过引入统一的框架，将每个语言问题转化为文本到文本的格式，来探索 NLP 迁移学习技术的领域。我们的系统性研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的表现。通过将我们的探索结果与规模和我们的新的 "巨型干净爬取的语料库"相结合，我们在许多涵盖摘要、问答、文本分类等基准测试上取得了最先进的结果。为了便于将来在 NLP 的迁移学习上进行研究，我们发布了我们的数据集、预训练模型和代码。

下游任务（Q&A）的详细信息 - 数据集 📚 🧐 ❓

数据集 ID：squad 来自 Huggingface/NLP

Dataset	Split	# samples
squad	train	87599
squad	valid	10570

如何从 nlp 中加载它

train_dataset  = nlp.load_dataset('squad', split=nlp.Split.TRAIN)
valid_dataset = nlp.load_dataset('squad', split=nlp.Split.VALIDATION)

在 NLP Viewer 中查看更多关于此数据集和其他数据集的信息

模型微调 🏋️‍

训练脚本是在 this awesome one 的基础上稍作修改的版本，由 Suraj Patil 提供

他还对 Question Generation 进行了深入研究

模型行动中 🚀

# Tip: By now, install transformers from source

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-question-generation-ap")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-question-generation-ap")

def get_question(answer, context, max_length=64):
  input_text = "answer: %s  context: %s </s>" % (answer, context)
  features = tokenizer([input_text], return_tensors='pt')

  output = model.generate(input_ids=features['input_ids'], 
               attention_mask=features['attention_mask'],
               max_length=max_length)

  return tokenizer.decode(output[0])

context = "Manuel has created RuPERTa-base with the support of HF-Transformers and Google"
answer = "Manuel"

get_question(answer, context)

# output: question: Who created the RuPERTa-base?

引用

如果您想引用这个模型，可以使用以下引用：

@misc{mromero2021t5-base-finetuned-question-generation-ap,
  title={T5 (base) fine-tuned on SQUAD for QG via AP},
  author={Romero, Manuel},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/mrm8488/t5-base-finetuned-question-generation-ap}},
  year={2021}
}

创建者： Manuel Romero/@mrm8488 | LinkedIn

在西班牙制作 ❤

作者:

Manuel Romero

数据集大小:

3.04 GB