EleutherAI/lambada_openai | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

EleutherAI/lambada_openai

子任务:

language-modeling

语言:

计算机处理:

translation

大小:

1K<n<10K

语言创建人:

machine-generated

源数据集:

lambada

许可:

mit

数据集介绍文件清单

英文

数据集概述

这个数据集是由OpenAI预处理的LAMBADA测试集合组成（有关相关讨论，请参见相关讨论 here 和 here ）。它还包含了德语、西班牙语、法语和意大利语的机器翻译版本。

LAMBADA用于通过单词预测任务评估计算模型在文本理解方面的能力。LAMBADA是一组叙述性文本，其特点是如果人类主体接触整篇文本，他们能够猜出最后一个单词，但如果他们只看到目标单词前面的最后一个句子，他们就无法猜出。要在LAMBADA上成功，计算模型不能仅仅依赖于局部上下文，而必须能够跟踪更广泛的话语中的信息。

语言

英语、德语、西班牙语、法语和意大利语。

来源数据

对于非英语语言，数据集由谷歌翻译产生的。有关详细信息，请参见translation_script.py。

附加信息

哈希校验和

为了进行数据完整性检查，我们对该数据集中的文件留下了以下校验和：

File Name	Checksum (SHA-256)
lambada_test_de.jsonl	51c6c1795894c46e88e4c104b5667f488efe79081fb34d746b82b8caa663865e
1234321	4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226
lambada_test_en.jsonl	4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226
lambada_test_es.jsonl	ffd760026c647fb43c67ce1bc56fd527937304b348712dce33190ea6caba6f9c
lambada_test_fr.jsonl	941ec6a73dba7dc91c860bf493eb66a527cd430148827a4753a4535a046bf362
lambada_test_it.jsonl	86654237716702ab74f42855ae5a78455c1b0e50054a4593fb9c6fcf7fad0850

许可

许可证： Modified MIT

引用

@article{radford2019language,
  title={Language Models are Unsupervised Multitask Learners},
  author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
  year={2019}
}

@misc{
    author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel},
    title={The LAMBADA dataset},
    DOI={10.5281/zenodo.2630551},
    publisher={Zenodo},
    year={2016},
    month={Aug}
}

贡献

感谢Sid Black（ @sdtblck ）将lambada_openai数据集翻译成非英语语言。

感谢Jonathan Tow（ @jon-tow ）添加了此数据集。

作者:

EleutherAI

数据集大小:

10.93 MB