数据集:

range3/wiki40b-ja

中文

range3/wiki40b-ja

This dataset consists of three parquet files from the wiki40b dataset with only Japanese data extracted. It is generated by the following python code.

このデータセットは、wiki40bデータセットの日本語データのみを抽出した3つのparquetファイルで構成されます。以下のpythonコードによって生成しています。

import datasets

dss = datasets.load_dataset(
    "wiki40b",
    "ja",
    beam_runner="DirectRunner",
)

for split,ds in dss.items():
    ds.to_parquet(f"wikipedia-ja-20230101/{split}.parquet")