数据集:
allenai/c4
这是 Google's C4 dataset 的处理版本。
我们准备了五个数据变体:en、en.noclean、en.noblocklist、realnewslike 和 multilingual。
参考下面是这些变体的大小:
en.noblocklist 变体与 en 变体完全相同,只是我们关闭了所谓的“badwords过滤器”,该过滤器会删除包含 https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中的单词的所有文档。
很遗憾,我们没有时间将其制作成一个适用于 datasets Python 包的适当的 Huggingface 数据集。在我们准备好之前,请使用git进行下载。首先确保已安装 Git Large File Storage 。完成后,下载整个数据集的三个变体很容易:
git clone https://huggingface.co/datasets/allenai/c4
这将在您的本地驱动器上下载13TB的数据。如果您想更精确地下载,请按照以下命令进行:
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/allenai/c4 cd c4 git lfs pull --include "en/*"
该变体中的 git clone 命令将下载 Git LFS 使用的一堆存根文件,以便您可以通过 git lfs pull --include "..." 将存根转换为实际文件。例如,如果您想从多语言集合中获取所有荷兰文档,则可以运行:
git lfs pull --include "multilingual/c4-nl.*.json.gz"
感谢 Common Crawl 的好人们,他们的数据使这成为可能( consider donating !),感谢 Google 创建了代码来筛选和过滤数据,以及感谢 Huggingface 毫不犹豫地托管了这 3TB 的公共下载数据!
我们根据 ODC-BY 的条款发布这个数据集。使用该数据集,您也受制于 Common Crawl terms of use ,这涉及数据集中包含的内容。