数据集:

izumi-lab/llm-japanese-dataset-vanilla

预印本库:

arxiv:2305.12720

大小:

1M<n<10M

语言:

ja
中文

llm-japanese-dataset-vanilla

LLM構築用の日本語チャットデータセット

izumi-lab/llm-japanese-dataset から,日英翻訳のデータセット等を抜いたものです.

主に,日本語LLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.

※様々な公開言語資源を利用させていただきました.関係各位にはこの場を借りて御礼申し上げます.

データの詳細

データの詳細は, izumi-lab/llm-japanese-dataset に関する,以下の論文を参照してください.

なお,Citationには,よろしければ,以下をご利用ください.

@preprint{Suzuki2023-llmj,
  title={{日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング}},
  author={鈴木 雅弘 and 平野 正徳 and 坂地 泰紀},
  doi={10.51094/jxiv.422},
  archivePrefix={Jxiv},
  year={2023}
}

共同研究,データ提供,各種支援,その他問い合わせは, izumi-llm@socsim.org へ.

How to use

from datasets import load_dataset
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0")
print(dataset.num_rows)
# {'train': 1811964}
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0")
print(dataset.num_rows)
# {'train': 2515626}

v0.1.0 contains 1,811,964 data v1.0.0 contains 2,515,626 data

For more details, see: https://github.com/masanorihirano/llm-japanese-dataset/tree/vanilla

LICENSE

CC-BY-SA 4.0 (For more details, see: LICENSE, NOTICE.md, NOTICE2.md)

Note

To see more latest information, please go to llm.msuzuki.me .