数据集:
indonli
许可:
cc-by-sa-4.0源数据集:
original语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
monolingual语言:
id任务:
文本分类IndoNLI 是为印度尼西亚语设计的第一个人工调查的自然语言推理(NLI)数据集。IndoNLI由众包工作者和专家进行标注。专家标注的数据仅用作测试集。它旨在为印尼语NLI提供一个具有挑战性的测试平台,明确融入了各种语言现象,如数值推理,结构变化,习语或时间和空间推理。
印尼语
训练集的一个示例如下。
{ "premise": "Keindahan alam yang terdapat di Gunung Batu Jonggol ini dapat Anda manfaatkan sebagai objek fotografi yang cantik.", "hypothesis": "Keindahan alam tidak dapat difoto.", "label": 2 }
数据字段如下:
数据被分为训练集(train)、验证集(valid)、测试集(test_lay)和测试集(test_expert)。
test_expert由专家标注,其余部分由普通人标注。
split | # examples |
---|---|
train | 10330 |
valid | 2197 |
test_lay | 2201 |
test_expert | 2984 |
测试集(test_expert)的一个小子集用作诊断工具。更多信息,请访问 https://github.com/ir-nlp-csui/indonli 。
印尼语自然语言处理被认为是资源匮乏的。到目前为止,没有公开可用的印尼语NLI数据集。
premise来自印尼维基百科和其他公共印尼数据集:印尼PUD和GSD句法树库,由 Universal Dependencies 2.5 和 IndoSum 提供。
hypothesis由标注者编写。
谁是源语言的制作者?数据由人类生成。
我们首先给出前提和目标标签,然后要求两个不同的独立标注者根据前提和假设预测标签。如果3个(初始假设+2个独立标注者)都同意标签,则标注过程结束。否则,我们逐步请求其他标注者,直到有3个标注者同意标签。如果在5个标注之后没有多数共识,则删除样本。
谁是标注者?普通标注者是计算机科学学生,专家标注者是具有7年以上NLP研究经验的NLP科学家。所有标注者都是母语使用者。此外,专家标注者明确被指示通过结合各种语言现象(如数值推理,结构变化,习语或时间和空间推理)来提供具有挑战性的示例。标注者根据小时工资进行补偿。
可能会有一些来自维基百科和新闻的个人信息,特别是有关著名/重要人物的信息。
INDONLI使用维基百科和新闻中获取的前提句子创建。这些数据源可能存在一些偏见。
暂无其他已知限制。
该数据集是印尼大学、kata.ai、纽约大学、Fondazione Bruno Kessler和圣安德鲁斯大学的印尼研究员的合作成果。
CC-BY-SA 4.0.
署名 - 您必须适当给予信用,提供许可证的链接,并指示是否对原始数据进行了更改。您可以以任何合理的方式这样做,但不能以任何方式暗示许可人赞同您或您的使用。
相同方式共享 - 如果您重新混合、转换或基于原材料构建,则需要在与原作品相同的许可下分发您的贡献。
无其他限制 - 您不得应用法律条款或技术措施,以合法地限制他人从许可证中可以做的事情。
有关数据集的任何信息,请联系作者。
@inproceedings{mahendra-etal-2021-indonli, title = "{I}ndo{NLI}: A Natural Language Inference Dataset for {I}ndonesian", author = "Mahendra, Rahmad and Aji, Alham Fikri and Louvan, Samuel and Rahman, Fahrurrozi and Vania, Clara", booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021", address = "Online and Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.emnlp-main.821", pages = "10511--10527", }
感谢 @afaji 添加了此数据集。