数据集:

indonli

源数据集:

original

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

id
英文

IndoNLI数据集卡片

数据集概述

IndoNLI 是为印度尼西亚语设计的第一个人工调查的自然语言推理(NLI)数据集。IndoNLI由众包工作者和专家进行标注。专家标注的数据仅用作测试集。它旨在为印尼语NLI提供一个具有挑战性的测试平台,明确融入了各种语言现象,如数值推理,结构变化,习语或时间和空间推理。

支持的任务和排行榜

  • 对印尼语进行自然语言推理

语言

印尼语

数据集结构

数据示例

训练集的一个示例如下。

{
  "premise": "Keindahan alam yang terdapat di Gunung Batu Jonggol ini dapat Anda manfaatkan sebagai objek fotografi yang cantik.", 
  "hypothesis": "Keindahan alam tidak dapat difoto.", 
  "label": 2
}

数据字段

数据字段如下:

  • premise : 字符串特征
  • hypothesis : 字符串特征
  • label : 分类标签,可能的取值包括蕴含(entailment)(0)、中性(neutral)(1)、矛盾(contradiction)(2)。

数据拆分

数据被分为训练集(train)、验证集(valid)、测试集(test_lay)和测试集(test_expert)。

test_expert由专家标注,其余部分由普通人标注。

split # examples
train 10330
valid 2197
test_lay 2201
test_expert 2984

测试集(test_expert)的一个小子集用作诊断工具。更多信息,请访问 https://github.com/ir-nlp-csui/indonli

数据集创建

创建原因

印尼语自然语言处理被认为是资源匮乏的。到目前为止,没有公开可用的印尼语NLI数据集。

源数据

premise来自印尼维基百科和其他公共印尼数据集:印尼PUD和GSD句法树库,由 Universal Dependencies 2.5 IndoSum 提供。

hypothesis由标注者编写。

谁是源语言的制作者?

数据由人类生成。

标注

标注流程

我们首先给出前提和目标标签,然后要求两个不同的独立标注者根据前提和假设预测标签。如果3个(初始假设+2个独立标注者)都同意标签,则标注过程结束。否则,我们逐步请求其他标注者,直到有3个标注者同意标签。如果在5个标注之后没有多数共识,则删除样本。

谁是标注者?

普通标注者是计算机科学学生,专家标注者是具有7年以上NLP研究经验的NLP科学家。所有标注者都是母语使用者。此外,专家标注者明确被指示通过结合各种语言现象(如数值推理,结构变化,习语或时间和空间推理)来提供具有挑战性的示例。标注者根据小时工资进行补偿。

个人和敏感信息

可能会有一些来自维基百科和新闻的个人信息,特别是有关著名/重要人物的信息。

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

INDONLI使用维基百科和新闻中获取的前提句子创建。这些数据源可能存在一些偏见。

其他已知限制

暂无其他已知限制。

附加信息

数据集维护者

该数据集是印尼大学、kata.ai、纽约大学、Fondazione Bruno Kessler和圣安德鲁斯大学的印尼研究员的合作成果。

许可信息

CC-BY-SA 4.0.

署名 - 您必须适当给予信用,提供许可证的链接,并指示是否对原始数据进行了更改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人赞同您或您的使用。

相同方式共享 - 如果您重新混合、转换或基于原材料构建,则需要在与原作品相同的许可下分发您的贡献。

无其他限制 - 您不得应用法律条款或技术措施,以合法地限制他人从许可证中可以做的事情。

有关数据集的任何信息,请联系作者。

引用信息

@inproceedings{mahendra-etal-2021-indonli,
    title = "{I}ndo{NLI}: A Natural Language Inference Dataset for {I}ndonesian",
    author = "Mahendra, Rahmad and Aji, Alham Fikri and Louvan, Samuel and Rahman, Fahrurrozi and Vania, Clara",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.821",
    pages = "10511--10527",
}

贡献

感谢 @afaji 添加了此数据集。