数据集:
openwebtext
这是来自OpenAI的WebText数据集的开源复制品,用于训练GPT-2。
此分发版由Brown University的Aaron Gokaslan和Vanya Cohen创建。
'train'的一个示例如下所示。
This example was too long and was cropped: { "text": "\"A magazine supplement with an image of Adolf Hitler and the title 'The Unreadable Book' is pictured in Berlin. No law bans “Mei..." }
数据字段在所有拆分中是相同的。
plain_textname | train |
---|---|
plain_text | 8013769 |
作者首先从Reddit提交数据集中提取了所有Reddit帖子URL。这些链接被去重,过滤掉非HTML内容,然后随机洗牌。然后将这些链接分发到多台机器上进行并行下载,使用新闻Python包提取所有网页。使用Facebook FastText过滤掉非英语网页。
随后,使用局部敏感哈希(LSH)识别了近似重复的文档。文档被哈希为5-gram集合,移除了相似度阈值大于0.5的所有文档。然后对文档进行了标记化,并删除了少于128个标记的文档。这留下了来自8,013,769个文档的38GB文本数据(使用SI单位为40GB)。
资源语言制作者是谁?数据集不包含注释。
这些数据根据原始作者的许可方案发布( 来源 )
We do not own any of the text from which these data has been extracted. We license the actual packaging of these parallel data under the [Creative Commons CC0 license (“no rights reserved”)](https://creativecommons.org/share-your-work/public-domain/cc0/)通告政策
如果您认为我们的数据包含您拥有的材料,因此不应在此处复制,请:
明确标识您自己,提供详细的联系信息,例如您可以联系到的地址、电话号码或电子邮件地址。
明确定义所声称的侵权版权作品。
明确标识所声称的侵权材料,并提供合理的信息以使我们能够找到该材料。
并通过以下电子邮件地址联系我们:openwebtext@gmail.com和datasets@huggingface.co
下架政策原始作者将按照合法请求的要求删除受影响的来源,从语料库的下一个版本开始。Hugging Face也将相应更新此存储库。
@misc{Gokaslan2019OpenWeb, title={OpenWebText Corpus}, author={Aaron Gokaslan*, Vanya Cohen*, Ellie Pavlick, Stefanie Tellex}, howpublished{\url{http://Skylion007.github.io/OpenWebTextCorpus}}, year={2019} }
感谢@richarddwang添加了该数据集。