llm-japanese-dataset

LLM構築用の日本語インストラクション(チャット)データセット

主に，英語で構築されたLLMモデルなどに対して，チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます．

※様々な公開言語資源を利用させていただきました．関係各位にはこの場を借りて御礼申し上げます．

updates

5/15にAlpaca datasetがNCにライセンス変更されたことに対応し，安心してご利用いただけるように，データセットから当該データセットをドロップしました． v1.0.1にて，ドロップ後のデータセットをご利用いただけます．

データの詳細

データの詳細は，以下の論文を参照してください．

日本語: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/383
英語: https://arxiv.org/abs/2305.12720
GitHub: https://github.com/masanorihirano/llm-japanese-dataset
最新情報: llm.msuzuki.me .

なお，Citationには，よろしければ，以下をご利用ください．

@preprint{Hirano2023-llmj,
  title={{llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology}},
  autor={Masanori HIRANO and Masahiro SUZUKI and Hiroki SAKAJI},
  doi={10.48550/arXiv.2305.12720},
  archivePrefix={arXiv},
  arxivId={2305.12720},
  year={2023}
}

共同研究，データ提供，各種支援，その他問い合わせは， izumi-llm@socsim.org へ．

How to use

from datasets import load_dataset
dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="main")
dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="a.b.c") # for specific version

version 0.1.0 contains bugs
version 0.1.1 contains 8,393,726 data (bug fixed)
version 1.0.0 contains 9,097,388 data (added jqac, wikipedia ja typo corpus)
version 1.0.1 contains 9,045,386 data (dropped alpaca dataset)

For more details, see: https://github.com/masanorihirano/llm-japanese-dataset

LICENSE

CC-BY-SA 4.0 (For more details, see: LICENSE, NOTICE.md, NOTICE2.md)

Note

MIT License version is also available on the github release page https://github.com/masanorihirano/llm-japanese-dataset/releases

To see more latest information, please go to llm.msuzuki.me .

作者:

izumi-lab

数据集大小:

1.88 GB