数据集:

allenai/c4

英文

这是 Google's C4 dataset 的处理版本。

我们准备了五个数据变体:en、en.noclean、en.noblocklist、realnewslike 和 multilingual。

参考下面是这些变体的大小:

  • en : 305GB
  • en.noclean : 2.3TB
  • en.noblocklist : 380GB
  • realnewslike : 15GB
  • multilingual : 9.7TB

en.noblocklist 变体与 en 变体完全相同,只是我们关闭了所谓的“badwords过滤器”,该过滤器会删除包含 https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中的单词的所有文档。

如何下载?

很遗憾,我们没有时间将其制作成一个适用于 datasets Python 包的适当的 Huggingface 数据集。在我们准备好之前,请使用git进行下载。首先确保已安装 Git Large File Storage 。完成后,下载整个数据集的三个变体很容易:

git clone https://huggingface.co/datasets/allenai/c4

这将在您的本地驱动器上下载13TB的数据。如果您想更精确地下载,请按照以下命令进行:

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/allenai/c4
cd c4
git lfs pull --include "en/*"

该变体中的 git clone 命令将下载 Git LFS 使用的一堆存根文件,以便您可以通过 git lfs pull --include "..." 将存根转换为实际文件。例如,如果您想从多语言集合中获取所有荷兰文档,则可以运行:

git lfs pull --include "multilingual/c4-nl.*.json.gz"

致谢

感谢 Common Crawl 的好人们,他们的数据使这成为可能( consider donating !),感谢 Google 创建了代码来筛选和过滤数据,以及感谢 Huggingface 毫不犹豫地托管了这 3TB 的公共下载数据!

许可证

我们根据 ODC-BY 的条款发布这个数据集。使用该数据集,您也受制于 Common Crawl terms of use ,这涉及数据集中包含的内容。