数据集:

ai2_arc

任务:

问答

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

"ai2_arc"数据集的数据卡

数据集概述

这是一个由7,787个真实的小学水平多项选择科学问题组成的新数据集,旨在鼓励高级问答研究。数据集分为挑战集和简单集,其中挑战集仅包含由检索算法和词共现算法均回答错误的问题。我们还提供一个包含超过1400万个与该任务相关的科学句子的语料库,以及针对该数据集的三个神经基线模型的实现。我们将ARC提出为一个对整个社区具有挑战性的任务。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

ARC-挑战
  • 下载的数据集文件大小: 680.84 MB
  • 生成的数据集大小: 0.83 MB
  • 总磁盘使用量: 681.67 MB

"train"的示例如下所示。

{
    "answerKey": "B",
    "choices": {
        "label": ["A", "B", "C", "D"],
        "text": ["Shady areas increased.", "Food sources increased.", "Oxygen levels increased.", "Available water increased."]
    },
    "id": "Mercury_SC_405487",
    "question": "One year, the oak trees in a park began producing more acorns than usual. The next year, the population of chipmunks in the park also increased. Which best explains why there were more chipmunks the next year?"
}
ARC-简单
  • 下载的数据集文件大小: 680.84 MB
  • 生成的数据集大小: 1.45 MB
  • 总磁盘使用量: 682.29 MB

"train"的示例如下所示。

{
    "answerKey": "B",
    "choices": {
        "label": ["A", "B", "C", "D"],
        "text": ["Shady areas increased.", "Food sources increased.", "Oxygen levels increased.", "Available water increased."]
    },
    "id": "Mercury_SC_405487",
    "question": "One year, the oak trees in a park began producing more acorns than usual. The next year, the population of chipmunks in the park also increased. Which best explains why there were more chipmunks the next year?"
}

数据字段

所有拆分之间的数据字段相同。

ARC-挑战
  • id : 一个 字符串 特征。
  • question : 一个 字符串 特征。
  • choices : 一个包含的字典特征:
    • text : 一个 字符串 特征。
    • label : 一个 字符串 特征。
  • answerKey : 一个 字符串 特征。
ARC-简单
  • id : 一个 字符串 特征。
  • question : 一个 字符串 特征。
  • choices : 一个包含的字典特征:
    • text : 一个 字符串 特征。
    • label : 一个 字符串 特征。
  • answerKey : 一个 字符串 特征。

数据拆分

name train validation test
ARC-Challenge 1119 299 1172
ARC-Easy 2251 570 2376

数据集创建

策展原理

More Information Needed

源数据

初始数据收集与规范化

More Information Needed

谁是源语言生产者?

More Information Needed

标注

标注过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策展人

More Information Needed

许可信息

More Information Needed

引用信息

@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}

贡献

感谢 @lewtun @patrickvonplaten @thomwolf 添加了此数据集。