数据集:

indonli

许可:

cc-by-sa-4.0

源数据集:

original

批注创建人:

crowdsourced expert-generated

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

子任务:

natural-language-inference

任务:

文本分类

数据集介绍文件清单

英文

IndoNLI数据集卡片

数据集概述

IndoNLI 是为印度尼西亚语设计的第一个人工调查的自然语言推理（NLI）数据集。IndoNLI由众包工作者和专家进行标注。专家标注的数据仅用作测试集。它旨在为印尼语NLI提供一个具有挑战性的测试平台，明确融入了各种语言现象，如数值推理，结构变化，习语或时间和空间推理。

支持的任务和排行榜

对印尼语进行自然语言推理

语言

印尼语

数据集结构

数据示例

训练集的一个示例如下。

{
  "premise": "Keindahan alam yang terdapat di Gunung Batu Jonggol ini dapat Anda manfaatkan sebagai objek fotografi yang cantik.", 
  "hypothesis": "Keindahan alam tidak dapat difoto.", 
  "label": 2
}

数据字段

数据字段如下：

premise : 字符串特征
hypothesis : 字符串特征
label : 分类标签，可能的取值包括蕴含(entailment)（0）、中性(neutral)（1）、矛盾(contradiction)（2）。

数据拆分

数据被分为训练集(train)、验证集(valid)、测试集(test_lay)和测试集(test_expert)。

test_expert由专家标注，其余部分由普通人标注。

split	# examples
train	10330
valid	2197
test_lay	2201
test_expert	2984

测试集(test_expert)的一个小子集用作诊断工具。更多信息，请访问 https://github.com/ir-nlp-csui/indonli 。

数据集创建

创建原因

印尼语自然语言处理被认为是资源匮乏的。到目前为止，没有公开可用的印尼语NLI数据集。

源数据

premise来自印尼维基百科和其他公共印尼数据集：印尼PUD和GSD句法树库，由 Universal Dependencies 2.5 和 IndoSum 提供。

hypothesis由标注者编写。

谁是源语言的制作者？

数据由人类生成。

标注

标注流程

我们首先给出前提和目标标签，然后要求两个不同的独立标注者根据前提和假设预测标签。如果3个（初始假设+2个独立标注者）都同意标签，则标注过程结束。否则，我们逐步请求其他标注者，直到有3个标注者同意标签。如果在5个标注之后没有多数共识，则删除样本。

谁是标注者？

普通标注者是计算机科学学生，专家标注者是具有7年以上NLP研究经验的NLP科学家。所有标注者都是母语使用者。此外，专家标注者明确被指示通过结合各种语言现象（如数值推理，结构变化，习语或时间和空间推理）来提供具有挑战性的示例。标注者根据小时工资进行补偿。

个人和敏感信息

可能会有一些来自维基百科和新闻的个人信息，特别是有关著名/重要人物的信息。

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

INDONLI使用维基百科和新闻中获取的前提句子创建。这些数据源可能存在一些偏见。

其他已知限制

暂无其他已知限制。

附加信息

数据集维护者

该数据集是印尼大学、kata.ai、纽约大学、Fondazione Bruno Kessler和圣安德鲁斯大学的印尼研究员的合作成果。

许可信息

CC-BY-SA 4.0.

署名 - 您必须适当给予信用，提供许可证的链接，并指示是否对原始数据进行了更改。您可以以任何合理的方式这样做，但不能以任何方式暗示许可人赞同您或您的使用。

相同方式共享 - 如果您重新混合、转换或基于原材料构建，则需要在与原作品相同的许可下分发您的贡献。

无其他限制 - 您不得应用法律条款或技术措施，以合法地限制他人从许可证中可以做的事情。

有关数据集的任何信息，请联系作者。

引用信息

@inproceedings{mahendra-etal-2021-indonli,
    title = "{I}ndo{NLI}: A Natural Language Inference Dataset for {I}ndonesian",
    author = "Mahendra, Rahmad and Aji, Alham Fikri and Louvan, Samuel and Rahman, Fahrurrozi and Vania, Clara",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.821",
    pages = "10511--10527",
}

贡献

感谢 @afaji 添加了此数据集。

作者:

佚名

数据集大小:

17.72 KB