模型:
KoboldAI/PPO_Pygway-6b-Mix
这是一个合并模型,使用加权参数混合策略,比例为(20:20:60),分别来自以下模型:
由各自的作者提供。
警告:PPO_Pygway-6b可能会生成不适当的或不安全的内容,因为基础模型(主要是 Pygmalion/Pygmalion-6b )是根据常规用户日志和互联网档案进行训练的。
仅供研究目的,旨在负责任地使用。以自然语言表达对话,PPO_Pygmalion将采用对话格式进行回应。尝试以两行提示开始,例如:
Bot: "Hello, how are you?" You: "I am doing just fine, thank you."
或其他任何话题,模型将以此问答的方式进行交流。
欲了解更多详细信息,请查看相关源模型,特别是 Pygmalion/Pygmalion-6b ,以了解如何使用所需的聊天机器人格式。
与微调类似,合并权重不会增加信息,而是将其进行转换,因此需要考虑权衡。PPO_Pygway结合了ppo_hh_gpt-j、Janeway-6b和Pygmalion-6b;这三个模型在两个步骤的过程中使用简单的加权参数方法进行了混合
(X*A + Y*B)
X和Y是模型权重,A和B是在最终值中如何强烈表示它们。此举旨在通过从每个基础模型中借用强烈表示的特点来提升最终模型,但也可能削弱每个模型的其他方面,如果基础模型具有需要改进的问题特征,这可能是可取的。
混合过程采用FP32进行,并以FP16保存输出以减少存储需求。
基于已知的NLP技术问题,潜在的相关因素包括偏见(性别、职业、种族和宗教)。
警告:此模型具有中度的不安全内容偏见。
GPT-J-6b受EleutherAI的apache-2.0许可证授权。版权所有。
@misc{gpt-j, author = {Wang, Ben and Komatsuzaki, Aran}, title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}}, howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}}, year = 2021, month = May }
有关的模型:
平均权重合并脚本由Concedo完成:
PPO_HH-GPT-J-6b的数据集是基于Helpful Harmless助手主题的数据集和Proximal Policy Optimization的变体,具体使用的数据集未知;列出的存储库数据集包括:
PPO解释:
可能使用的HH类型数据集:
目前还没有对此模型进行正式评估。
推荐使用此模型与KoboldAI软件配合使用。所有反馈和评论都可以发到KoboldAI Discord中的TeH_Venom。