数据集:

bigscience/P3

英文

P3数据集卡片

数据集摘要

P3(Public Pool of Prompts)是一个涵盖各种自然语言处理任务的Prompted英文数据集集合。Prompt是输入模板和目标模板的组合。模板是将数据示例映射到自然语言输入和目标序列的函数。例如,在自然语言推理(NLI)数据集的情况下,数据示例将包括Premise(前提)、Hypothesis(假设)和Label(标签)字段。输入模板可以定义为:“如果{Premise}为真,则{Hypothesis}也为真吗?”,而目标模板可以定义为:选择的选项为Choices[label]。这里的Choices是特定于Prompt的元数据,包含对应于标签为包含(0)、中性(1)或矛盾(2)的选项yes、maybe、no。

使用 Promptsource 进行收集Prompt, Promptsource 是一个与数据集进行互动性编写Prompt的接口,并收集Prompt的特定元数据,例如评估指标。截至10月13日,共收集到了270多个数据(子)集的2,000个Prompt。P3中的Prompt收集公开可用,可以在 Promptsource 上访问。

为了训练 T0* ,我们使用了Promptsource中可用的Prompt子集(请参阅详细信息 here )。然而,有些Prompt使用了random.choice方法,该方法在一个有效可能列表中均匀随机选择一个选项。为了重现的目的,我们发布了用于训练T0\*的Prompt示例集合。这里的数据是在 Multitask Prompted Training Enables Zero-Shot Task Generalization 中使用的Prompt数据集的实例化版本,表示只有至少在Promptsource中有一个Prompt所涵盖的数据集的子集。

支持的任务和排行榜

P3中的任务涵盖了多样化的NLP任务,包括多项选择问答(QA)、情感分析或自然语言推理。我们在源数据中详细列出了数据集的完整列表。

语言

P3中的数据为英文(BCP-47 en)。

数据集结构

数据实例

"train"的示例如下所示:

{
  'answer_choices': ['safe', 'trolley'],
  'inputs': [86, 8, 7142, 666, 6, 405, 8, 3, 834, 1518, 21, 1346, 42, 31682, 58, 37, 3, 929, 9, 3042, 63, 2765, 808, 8, 2045, 6448, 326, 13, 8, 31682, 11, 3, 24052, 135, 16, 8, 1346, 552, 8, 3, 834, 47, 6364, 5], 'inputs_pretokenized': 'In the sentence below, does the _ stand for safe or trolley?\nThe treasury workers took the gold bars off of the trolley and stacked them in the safe until the _ was empty.',
  'targets': [31682, 1],
  'targets_pretokenized': '\ntrolley'
}

在排名分类的情况下(让模型选择其具有最高对数似然的预测选项),示例如下所示:

{
  'idx': [5, 0],
  'inputs': [86, 8, 7142, 666, 6, 405, 8, 3, 834, 1518, 21, 19454, 42, 22227, 58, 19454, 744, 31, 17, 2112, 4553, 17742, 7, 12, 1953, 6, 298, 22227, 966, 373, 405, 5, 3, 834, 19, 72, 952, 12, 619, 16, 3, 9, 17742, 3298, 5],
  'inputs_pretokenized': "In the sentence below, does the _ stand for Kyle or Logan?\nKyle doesn't wear leg warmers to bed, while Logan almost always does. _ is more likely to live in a warmer climate.",
  'is_correct': True,
  'targets': [19454, 1],
  'targets_pretokenized': 'Kyle',
  'weight': 1.0
}

要查看所有的Prompt示例,可以使用 Promptsource hosted tool ,并在左侧面板中选择Prompted数据集查看器模式。

数据字段

所有拆分的数据字段是相同的:

  • answer_choices: 模型可选择的选择项(自然语言)
  • inputs_pretokenized: 输入的自然语言输入
  • targets_pretokenized: 模型需要生成的自然语言目标
  • inputs: 使用T0\*的分词器进行分词的输入
  • targets: 使用T0\*的分词器进行分词的目标
  • idx: 在排名分类的情况下,(示例,answer_option_id)的标识符
  • weight: seqio生成的示例的权重(实际上始终设置为1.0)
  • is_correct: (示例,answer_option_id)是否正确

数据拆分

数据拆分及其各自的大小的列表非常长。在此 file 中找到完整列表。

数据集创建

策划理念

Public Pool of Prompts依赖于Hugging Face Dataset库。Datasets库中的任何公共数据集都可以进行Prompt。我们选择那些至少有一个英语子集的数据集,并排除包含(主要是)非自然语言示例的数据集。

我们谨慎决定不Prompt包含潜在有害内容的数据集(例如基于社交媒体内容构建的数据集)。但是,我们有时会Prompt专门用于测量训练模型的偏见和公平性的数据集,并将这些Prompt的数据集(验证集或测试集)保留用于评估。

源数据

这是P3实例化版本中存在的数据集的完整列表:

  • 多项选择QA
    • CommonsenseQA
    • DREAM
    • QUAIL
    • QuaRTz
    • Social IQA
    • WiQA
    • Cosmos
    • QASC
    • Quarel
    • SciQ
    • Wiki Hop
    • ARC
    • OpenBookQA
    • MultiRC
    • PIQA
    • RACE
    • HellaSwag
    • BoolQ
  • 抽取式QA
    • Adversarial QA
    • Quoref
    • DuoRC
    • ROPES
    • SQuAD v2
    • ReCoRD
  • 封闭书籍QA
    • Hotpot QA
    • Wiki QA
    • Trivia QA
    • Web Questions
  • 结构到文本
    • Common Gen
    • Wiki Bio
  • 情感分析
    • Amazon
    • App Reviews
    • IMDB
    • Rotten Tomatoes
    • Yelp
  • 摘要
    • CNN Daily Mail
    • Gigaword
    • MultiNews
    • SamSum
    • XSum
  • 主题分类
    • AG News
    • DBPedia
    • TREC
  • 释义识别
    • MRPC
    • PAWS
    • QQP
  • 自然语言推理
    • ANLI
    • CB
    • RTE
  • 共指消解
    • WSC
    • Winogrande
  • 词义消歧
    • WiC
  • 句子完成
    • COPA
    • HellaSwag
    • Story Cloze

注释

在Promptsource中可用的Prompt是作为BigScience的一年期多语言模型和数据集研究工作坊的一部分收集的。来自8个国家的24个机构的36名参与者参与了Prompt的收集。参与者以机器学习研究人员或机器学习工程师为主。

主要的注释准则是Prompt需要是语法正确的,并且对于没有先前经验的英语母语人士来说是可理解的。此外,删除了需要显式计数或数值索引的Prompt,而是使用自然语言变体,例如,将预测提取的跨度的索引(例如在抽取式问答中)替换为将跨度的文本复制到目标中。在这些最低限度的约束下,鼓励Prompt编写者使用正式和创造性的Prompt以及数据的各种排序。大多数Prompt直接对应原始提议任务的某个版本,尽管我们还允许改变原始任务的Prompt(例如,从摘要生成文档)或允许模糊输出的Prompt(例如,不指示可用选择项的列表)。

参与者接收的完整注释可以在 here 找到。*注意,目前正在使用正在更新的链接)

附加信息

许可信息

该数据集在Apache 2.0下发布。

引用信息

@misc{sanh2021multitask,
      title={Multitask Prompted Training Enables Zero-Shot Task Generalization},
      author={Victor Sanh and Albert Webson and Colin Raffel and Stephen H. Bach and Lintang Sutawika and Zaid Alyafeai and Antoine Chaffin and Arnaud Stiegler and Teven Le Scao and Arun Raja and Manan Dey and M Saiful Bari and Canwen Xu and Urmish Thakker and Shanya Sharma Sharma and Eliza Szczechla and Taewoon Kim and Gunjan Chhablani and Nihal Nayak and Debajyoti Datta and Jonathan Chang and Mike Tian-Jian Jiang and Han Wang and Matteo Manica and Sheng Shen and Zheng Xin Yong and Harshit Pandey and Rachel Bawden and Thomas Wang and Trishala Neeraj and Jos Rozen and Abheesht Sharma and Andrea Santilli and Thibault Fevry and Jason Alan Fries and Ryan Teehan and Stella Biderman and Leo Gao and Tali Bers and Thomas Wolf and Alexander M. Rush},
      year={2021},
      eprint={2110.08207},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

贡献

感谢 promptsource 的贡献者添加了此数据集。