模型:
lmsys/fastchat-t5-3b-v1.0
任务:
文生文许可:
apache-2.0模型类型:FastChat-T5 是一个开源的聊天机器人,通过在从 ShareGPT 收集的用户共享对话上对 Flan-t5-xl (3B 参数) 进行微调而训练得到。它基于编码-解码 Transformer 架构,可以自动生成对用户输入的回复。
模型日期:FastChat-T5 是在 2023 年 4 月进行训练的。
开发该模型的机构:FastChat 开发者,主要为 Dacheng Li、Lianmin Zheng 和 Hao Zhang。
获取更多信息的论文或资源: https://github.com/lm-sys/FastChat#FastChat-T5
许可证:Apache License 2.0
用于发送问题或评论的地址: https://github.com/lm-sys/FastChat/issues
主要预期用途:FastChat-T5 的主要用途是商业化大型语言模型和聊天机器人。也可以用于研究目的。
主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的企业家和研究人员。
从 ShareGPT.com 收集的 70K 条对话。
它将 ShareGPT 数据以问答的形式进行处理。每个 ChatGPT 的回答被处理为一个回答,用户与 ChatGPT 之间的先前对话被处理为问题。编码器将问题双向编码为隐藏表示。解码器使用交叉注意力来关注这个表示,同时从一个起始标记开始单向生成回答。该模型进行了 3 个时期的微调,最大学习率为 2e-5,热身比例为 0.03,采用余弦学习率调度。
通过创建一组包含 80 个不同问题的数据集,并利用 GPT-4 来评估模型的质量。有关更多详情,请参阅 https://vicuna.lmsys.org/ 。