登录注册

行业学习

支撑

数据算量系统

企业招聘智能体

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

公司板科大讯飞

科大讯飞包揽ICPR MTWI图文识别挑战赛三项冠军

行业人工智能

所以，能动手就别吵吵了

行业人工智能

人工智能对 IT 技能和人才发展的影响

常用工具

OpenAI旗下AI对话工具

字节跳动旗下团队推出的免费AI英语写作助手

AI图像和插画生成工具，测试测试测试测试测试测测试

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

数据集:

allenai/c4

数据集介绍文件清单

这是 Google's C4 dataset 的处理版本。

我们准备了五个数据变体：en、en.noclean、en.noblocklist、realnewslike 和 multilingual。

参考下面是这些变体的大小：

en : 305GB
en.noclean : 2.3TB
en.noblocklist : 380GB
realnewslike : 15GB
multilingual : 9.7TB

en.noblocklist 变体与 en 变体完全相同，只是我们关闭了所谓的“badwords过滤器”，该过滤器会删除包含 https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words 列表中的单词的所有文档。

如何下载？

很遗憾，我们没有时间将其制作成一个适用于 datasets Python 包的适当的 Huggingface 数据集。在我们准备好之前，请使用git进行下载。首先确保已安装 Git Large File Storage 。完成后，下载整个数据集的三个变体很容易：

git clone https://huggingface.co/datasets/allenai/c4

这将在您的本地驱动器上下载13TB的数据。如果您想更精确地下载，请按照以下命令进行：

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/allenai/c4
cd c4
git lfs pull --include "en/*"

该变体中的 git clone 命令将下载 Git LFS 使用的一堆存根文件，以便您可以通过 git lfs pull --include "..." 将存根转换为实际文件。例如，如果您想从多语言集合中获取所有荷兰文档，则可以运行：

git lfs pull --include "multilingual/c4-nl.*.json.gz"

致谢

感谢 Common Crawl 的好人们，他们的数据使这成为可能（ consider donating ！），感谢 Google 创建了代码来筛选和过滤数据，以及感谢 Huggingface 毫不犹豫地托管了这 3TB 的公共下载数据！

许可证

我们根据 ODC-BY 的条款发布这个数据集。使用该数据集，您也受制于 Common Crawl terms of use ，这涉及数据集中包含的内容。

作者:

allenai

数据集大小:

52.19 GB

相关推荐