llm-japanese-dataset-vanilla

LLM構築用の日本語チャットデータセット

izumi-lab/llm-japanese-dataset から，日英翻訳のデータセット等を抜いたものです．

主に，日本語LLMモデルなどに対して，チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます．

※様々な公開言語資源を利用させていただきました．関係各位にはこの場を借りて御礼申し上げます．

データの詳細

データの詳細は， izumi-lab/llm-japanese-dataset に関する，以下の論文を参照してください．

日本語: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/383
英語: https://arxiv.org/abs/2305.12720
GitHub: https://github.com/masanorihirano/llm-japanese-dataset
最新情報: llm.msuzuki.me .

なお，Citationには，よろしければ，以下をご利用ください．

@preprint{Suzuki2023-llmj,
  title={{日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング}},
  author={鈴木 雅弘 and 平野 正徳 and 坂地 泰紀},
  doi={10.51094/jxiv.422},
  archivePrefix={Jxiv},
  year={2023}
}

共同研究，データ提供，各種支援，その他問い合わせは， izumi-llm@socsim.org へ．

How to use

from datasets import load_dataset
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0")
print(dataset.num_rows)
# {'train': 1811964}
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0")
print(dataset.num_rows)
# {'train': 2515626}

v0.1.0 contains 1,811,964 data v1.0.0 contains 2,515,626 data

For more details, see: https://github.com/masanorihirano/llm-japanese-dataset/tree/vanilla

LICENSE

CC-BY-SA 4.0 (For more details, see: LICENSE, NOTICE.md, NOTICE2.md)

Note

To see more latest information, please go to llm.msuzuki.me .

作者:

izumi-lab

数据集大小:

1.09 GB