数据集:

range3/cc100-ja

中文

range3/cc100-ja

This dataset consists of parquet files from the cc100 dataset with only the Japanese language extracted and sharded.

このデータセットは、cc100データセットの日本語のみを抽出し、シャーディングしたparquetファイルで構成されます。