数据集:
EleutherAI/lambada_openai
子任务:
language-modeling计算机处理:
translation大小:
1K<n<10K语言创建人:
machine-generated源数据集:
lambada许可:
mit这个数据集是由OpenAI预处理的LAMBADA测试集合组成(有关相关讨论,请参见相关讨论 here 和 here )。它还包含了德语、西班牙语、法语和意大利语的机器翻译版本。
LAMBADA用于通过单词预测任务评估计算模型在文本理解方面的能力。LAMBADA是一组叙述性文本,其特点是如果人类主体接触整篇文本,他们能够猜出最后一个单词,但如果他们只看到目标单词前面的最后一个句子,他们就无法猜出。要在LAMBADA上成功,计算模型不能仅仅依赖于局部上下文,而必须能够跟踪更广泛的话语中的信息。
英语、德语、西班牙语、法语和意大利语。
对于非英语语言,数据集由谷歌翻译产生的。有关详细信息,请参见translation_script.py。
为了进行数据完整性检查,我们对该数据集中的文件留下了以下校验和:
File Name | Checksum (SHA-256) |
---|---|
lambada_test_de.jsonl | 51c6c1795894c46e88e4c104b5667f488efe79081fb34d746b82b8caa663865e |
1234321 | 4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226 |
lambada_test_en.jsonl | 4aa8d02cd17c719165fc8a7887fddd641f43fcafa4b1c806ca8abc31fabdb226 |
lambada_test_es.jsonl | ffd760026c647fb43c67ce1bc56fd527937304b348712dce33190ea6caba6f9c |
lambada_test_fr.jsonl | 941ec6a73dba7dc91c860bf493eb66a527cd430148827a4753a4535a046bf362 |
lambada_test_it.jsonl | 86654237716702ab74f42855ae5a78455c1b0e50054a4593fb9c6fcf7fad0850 |
许可证: Modified MIT
@article{radford2019language, title={Language Models are Unsupervised Multitask Learners}, author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya}, year={2019} }
@misc{ author={Paperno, Denis and Kruszewski, Germán and Lazaridou, Angeliki and Pham, Quan Ngoc and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernández, Raquel}, title={The LAMBADA dataset}, DOI={10.5281/zenodo.2630551}, publisher={Zenodo}, year={2016}, month={Aug} }
感谢Sid Black( @sdtblck )将lambada_openai数据集翻译成非英语语言。
感谢Jonathan Tow( @jon-tow )添加了此数据集。