模型:

KoboldAI/GPT-NeoX-20B-Erebus

英文

GPT-NeoX-20B-Erebus

模型描述

这是原始 Shinen 的第二代,由 Mr. Seeker 制作。完整的数据集由 6 个不同来源组成,都与“成人”主题有关。名称“Erebus”来自希腊神话,也被称为“黑暗”。这与 Shin'en 或“深渊”一致。有关咨询,请联系 KoboldAI 社区。 警告:此模型不适用于未成年人使用。该模型会输出 X 级内容。

训练过程

GPT-NeoX-20B-Erebus 使用经过大幅修改的 Ben Wang 的 Mesh Transformer JAX 库进行训练。其原始版本由 EleutherAI 用于训练 GPT-J-6B 模型。

训练数据

数据可分为 6 个不同的数据集:

  • Literotica(评分为 4.5/5 及以上的所有内容)
  • Sexstories(评分为 90 及以上的所有内容)
  • Dataset-G(包含 X 级故事的私人数据集)
  • Doc's Lab(所有故事)
  • Pike 数据集(带有“成人”评级的小说)
  • SoFurry(各种动物的集合)

数据集使用 [Genre: <逗号分隔的流派列表>] 进行标记。

限制和偏见

基于已知的自然语言处理技术问题,潜在相关因素包括偏见(性别、职业、种族和宗教)。警告:此模型具有非常强烈的 NSFW 偏见!

引用详细信息

GPT-NeoX-20B 模型权重:

@inproceedings{gpt-neox-20b,
  title={{GPT-NeoX-20B}: An Open-Source Autoregressive Language Model},
  author={Black, Sid and Biderman, Stella and Hallahan, Eric and Anthony, Quentin and Gao, Leo and Golding, Laurence and He, Horace and Leahy, Connor and McDonell, Kyle and Phang, Jason and Pieler, Michael and Prashanth, USVSN Sai and Purohit, Shivanshu and Reynolds, Laria and Tow, Jonathan and Wang, Ben and Weinbach, Samuel},
  booktitle={Proceedings of the ACL Workshop on Challenges \& Perspectives in Creating Large Language Models},
  url={https://arxiv.org/abs/2204.06745},
  year={2022}
}

Mesh Transformer JAX 库:

@misc{mesh-transformer-jax,
  author = {Wang, Ben},
  title = {{Mesh-Transformer-JAX: Model-Parallel Implementation of Transformer Language Model with JAX}},
  howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}},
  year = 2021,
  month = May
}