数据集:

izumi-lab/llm-japanese-dataset

语言:

ja

大小:

1M<n<10M

预印本库:

arxiv:2305.12720
中文

llm-japanese-dataset

LLM構築用の日本語インストラクション(チャット)データセット

主に,英語で構築されたLLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.

※様々な公開言語資源を利用させていただきました.関係各位にはこの場を借りて御礼申し上げます.

updates

5/15にAlpaca datasetがNCにライセンス変更されたことに対応し,安心してご利用いただけるように,データセットから当該データセットをドロップしました. v1.0.1にて,ドロップ後のデータセットをご利用いただけます.

データの詳細

データの詳細は,以下の論文を参照してください.

なお,Citationには,よろしければ,以下をご利用ください.

@preprint{Hirano2023-llmj,
  title={{llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology}},
  autor={Masanori HIRANO and Masahiro SUZUKI and Hiroki SAKAJI},
  doi={10.48550/arXiv.2305.12720},
  archivePrefix={arXiv},
  arxivId={2305.12720},
  year={2023}
}

共同研究,データ提供,各種支援,その他問い合わせは, izumi-llm@socsim.org へ.

How to use

from datasets import load_dataset
dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="main")
dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="a.b.c") # for specific version
  • version 0.1.0 contains bugs
  • version 0.1.1 contains 8,393,726 data (bug fixed)
  • version 1.0.0 contains 9,097,388 data (added jqac, wikipedia ja typo corpus)
  • version 1.0.1 contains 9,045,386 data (dropped alpaca dataset)

For more details, see: https://github.com/masanorihirano/llm-japanese-dataset

LICENSE

CC-BY-SA 4.0 (For more details, see: LICENSE, NOTICE.md, NOTICE2.md)

Note

MIT License version is also available on the github release page https://github.com/masanorihirano/llm-japanese-dataset/releases

To see more latest information, please go to llm.msuzuki.me .