数据集:
izumi-lab/llm-japanese-dataset
LLM構築用の日本語インストラクション(チャット)データセット
主に,英語で構築されたLLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.
※様々な公開言語資源を利用させていただきました.関係各位にはこの場を借りて御礼申し上げます.
5/15にAlpaca datasetがNCにライセンス変更されたことに対応し,安心してご利用いただけるように,データセットから当該データセットをドロップしました. v1.0.1にて,ドロップ後のデータセットをご利用いただけます.
データの詳細は,以下の論文を参照してください.
なお,Citationには,よろしければ,以下をご利用ください.
@preprint{Hirano2023-llmj, title={{llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology}}, autor={Masanori HIRANO and Masahiro SUZUKI and Hiroki SAKAJI}, doi={10.48550/arXiv.2305.12720}, archivePrefix={arXiv}, arxivId={2305.12720}, year={2023} }
共同研究,データ提供,各種支援,その他問い合わせは, izumi-llm@socsim.org へ.
from datasets import load_dataset dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="main") dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="a.b.c") # for specific version
For more details, see: https://github.com/masanorihirano/llm-japanese-dataset
CC-BY-SA 4.0 (For more details, see: LICENSE, NOTICE.md, NOTICE2.md)
MIT License version is also available on the github release page https://github.com/masanorihirano/llm-japanese-dataset/releases
To see more latest information, please go to llm.msuzuki.me .