P3(Public Pool of Prompts)是一个涵盖各种自然语言处理任务的Prompted英文数据集集合。Prompt是输入模板和目标模板的组合。模板是将数据示例映射到自然语言输入和目标序列的函数。例如,在自然语言推理(NLI)数据集的情况下,数据示例将包括Premise(前提)、Hypothesis(假设)和Label(标签)字段。输入模板可以定义为:“如果{Premise}为真,则{Hypothesis}也为真吗?”,而目标模板可以定义为:选择的选项为Choices[label]。这里的Choices是特定于Prompt的元数据,包含对应于标签为包含(0)、中性(1)或矛盾(2)的选项yes、maybe、no。
使用 Promptsource 进行收集Prompt, Promptsource 是一个与数据集进行互动性编写Prompt的接口,并收集Prompt的特定元数据,例如评估指标。截至10月13日,共收集到了270多个数据(子)集的2,000个Prompt。P3中的Prompt收集公开可用,可以在 Promptsource 上访问。
为了训练 T0* ,我们使用了Promptsource中可用的Prompt子集(请参阅详细信息 here )。然而,有些Prompt使用了random.choice方法,该方法在一个有效可能列表中均匀随机选择一个选项。为了重现的目的,我们发布了用于训练T0\*的Prompt示例集合。这里的数据是在 Multitask Prompted Training Enables Zero-Shot Task Generalization 中使用的Prompt数据集的实例化版本,表示只有至少在Promptsource中有一个Prompt所涵盖的数据集的子集。
P3中的数据为英文(BCP-47 en)。
{ 'answer_choices': ['safe', 'trolley'], 'inputs': [86, 8, 7142, 666, 6, 405, 8, 3, 834, 1518, 21, 1346, 42, 31682, 58, 37, 3, 929, 9, 3042, 63, 2765, 808, 8, 2045, 6448, 326, 13, 8, 31682, 11, 3, 24052, 135, 16, 8, 1346, 552, 8, 3, 834, 47, 6364, 5], 'inputs_pretokenized': 'In the sentence below, does the _ stand for safe or trolley?\nThe treasury workers took the gold bars off of the trolley and stacked them in the safe until the _ was empty.', 'targets': [31682, 1], 'targets_pretokenized': '\ntrolley' }
{ 'idx': [5, 0], 'inputs': [86, 8, 7142, 666, 6, 405, 8, 3, 834, 1518, 21, 19454, 42, 22227, 58, 19454, 744, 31, 17, 2112, 4553, 17742, 7, 12, 1953, 6, 298, 22227, 966, 373, 405, 5, 3, 834, 19, 72, 952, 12, 619, 16, 3, 9, 17742, 3298, 5], 'inputs_pretokenized': "In the sentence below, does the _ stand for Kyle or Logan?\nKyle doesn't wear leg warmers to bed, while Logan almost always does. _ is more likely to live in a warmer climate.", 'is_correct': True, 'targets': [19454, 1], 'targets_pretokenized': 'Kyle', 'weight': 1.0 }
要查看所有的Prompt示例,可以使用 Promptsource hosted tool ,并在左侧面板中选择Prompted数据集查看器模式。
数据拆分及其各自的大小的列表非常长。在此 file 中找到完整列表。
Public Pool of Prompts依赖于Hugging Face Dataset库。Datasets库中的任何公共数据集都可以进行Prompt。我们选择那些至少有一个英语子集的数据集,并排除包含(主要是)非自然语言示例的数据集。
参与者接收的完整注释可以在 here 找到。*注意,目前正在使用正在更新的链接)
该数据集在Apache 2.0下发布。
@misc{sanh2021multitask, title={Multitask Prompted Training Enables Zero-Shot Task Generalization}, author={Victor Sanh and Albert Webson and Colin Raffel and Stephen H. Bach and Lintang Sutawika and Zaid Alyafeai and Antoine Chaffin and Arnaud Stiegler and Teven Le Scao and Arun Raja and Manan Dey and M Saiful Bari and Canwen Xu and Urmish Thakker and Shanya Sharma Sharma and Eliza Szczechla and Taewoon Kim and Gunjan Chhablani and Nihal Nayak and Debajyoti Datta and Jonathan Chang and Mike Tian-Jian Jiang and Han Wang and Matteo Manica and Sheng Shen and Zheng Xin Yong and Harshit Pandey and Rachel Bawden and Thomas Wang and Trishala Neeraj and Jos Rozen and Abheesht Sharma and Andrea Santilli and Thibault Fevry and Jason Alan Fries and Ryan Teehan and Stella Biderman and Leo Gao and Tali Bers and Thomas Wolf and Alexander M. Rush}, year={2021}, eprint={2110.08207}, archivePrefix={arXiv}, primaryClass={cs.LG} }
感谢 promptsource 的贡献者添加了此数据集。