数据集:
izumi-lab/llm-japanese-dataset-vanilla
LLM構築用の日本語チャットデータセット
izumi-lab/llm-japanese-dataset から,日英翻訳のデータセット等を抜いたものです.
主に,日本語LLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.
※様々な公開言語資源を利用させていただきました.関係各位にはこの場を借りて御礼申し上げます.
データの詳細は, izumi-lab/llm-japanese-dataset に関する,以下の論文を参照してください.
なお,Citationには,よろしければ,以下をご利用ください.
@preprint{Suzuki2023-llmj, title={{日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング}}, author={鈴木 雅弘 and 平野 正徳 and 坂地 泰紀}, doi={10.51094/jxiv.422}, archivePrefix={Jxiv}, year={2023} }
共同研究,データ提供,各種支援,その他問い合わせは, izumi-llm@socsim.org へ.
from datasets import load_dataset dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0") print(dataset.num_rows) # {'train': 1811964} dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0") print(dataset.num_rows) # {'train': 2515626}
v0.1.0 contains 1,811,964 data v1.0.0 contains 2,515,626 data
For more details, see: https://github.com/masanorihirano/llm-japanese-dataset/tree/vanilla
CC-BY-SA 4.0 (For more details, see: LICENSE, NOTICE.md, NOTICE2.md)
To see more latest information, please go to llm.msuzuki.me .