模型:
decapoda-research/llama-65b-hf
LLaMA-65B转换为与Transformers/HuggingFace一起使用。这是根据特殊许可证进行的转换,请查看LICENSE文件以获取详细信息。
--许可证:其他
开发该模型的组织:Meta AI的FAIR团队。
模型日期:LLaMA是在2022年12月至2023年2月之间进行训练的。
模型版本:这是模型的第一个版本。
模型类型:LLaMA是一种自回归语言模型,基于transformer架构。该模型有不同的规模:7B,13B,33B和65B个参数。
有关更多信息的论文或资源:更多信息可以在论文“LLaMA, Open and Efficient Foundation Language Models”中找到,可在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 获取。
引文详细信息: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证:非商业定制许可证
如何发送有关模型的问题或评论:有关LLaMA的问题和评论可以通过项目的 GitHub repository 发送,也可以通过打开一个问题。
主要拟合用途:LLaMA的主要用途是研究大型语言模型,包括探索潜在的应用,如问答、自然语言理解或阅读理解,了解当前语言模型的能力和限制,并开发改善这些模型的技术,评估和减轻偏见、风险、有毒和有害内容的生成、幻觉。
主要拟合用户:该模型的主要拟合用户是自然语言处理、机器学习和人工智能领域的研究人员。
不适用的用例:LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解措施之前,不应将其用于下游应用。特别是,我们的模型未经人类反馈进行训练,因此可能生成有毒或冒犯性内容、不正确的信息或一般无用的答案。
相关因素:模型性能可能变化的最相关因素之一是使用的语言。尽管我们在训练数据中包含了20种语言,但我们的数据集中大部分是英文文本,因此我们预计该模型在英语方面的表现会更好。与此相关的是,之前的研究表明,性能可能因不同的方言而有所变化,我们预计我们的模型也是如此。
评估因素:由于我们的模型在Web数据上进行训练,因此我们预计它会反映来自该来源的偏见。因此,我们使用RAI数据集评估模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位方面展示的偏见,以及模型生成行为的有毒性,这取决于用于提示模型的上下文的有毒性。
模型性能度量:我们使用以下指标来评估模型:
决策阈值:不适用。
不确定性和可变性的方法:由于培训LLMs的高计算要求,我们只训练了每个大小的一个模型,因此无法评估预训练的可变性。
该模型在以下基准数据集上进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench难度、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
模型使用以下数据源进行训练:CCNet [67%],C4 [15%],GitHub [4.5%],Wikipedia [4.5%],Books [4.5%],ArXiv [2.5%],Stack Exchange [2%]。维基百科和书籍域包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多细节,请参阅论文。
模型架构的超参数
LLaMA | Model hyper parameters | |||||
---|---|---|---|---|---|---|
Number of parameters | dimension | n heads | n layers | Learn rate | Batch size | n tokens |
7B | 4096 | 32 | 32 | 3.0E-04 | 4M | 1T |
13B | 5120 | 40 | 40 | 3.0E-04 | 4M | 1T |
33B | 6656 | 52 | 60 | 1.5.E-04 | 4M | 1.4T |
65B | 8192 | 64 | 80 | 1.5.E-04 | 4M | 1.4T |
表1-LLama模型超参数摘要
我们在下表中呈现了对八个标准常识推理基准的结果。
LLaMA | Reasoning tasks | ||||||||
---|---|---|---|---|---|---|---|---|---|
Number of parameters | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | COPA |
7B | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 76.7 | 47.6 | 57.2 | 93 |
13B | 78.1 | 80.1 | 50.4 | 79.2 | 73 | 78.1 | 52.7 | 56.4 | 94 |
33B | 83.1 | 82.3 | 50.4 | 82.8 | 76 | 81.4 | 57.8 | 58.6 | 92 |
65B | 85.3 | 82.8 | 52.3 | 84.2 | 77 | 81.5 | 56 | 60.2 | 94 |
表2-LLama模型在推理任务上的性能摘要
我们在下表中呈现了偏见的结果。请注意,较低的值表示较低的偏见。
No | Category | FAIR LLM |
---|---|---|
1 | Gender | 70.6 |
2 | Religion | 79 |
3 | Race/Color | 57 |
4 | Sexual orientation | 81 |
5 | Age | 70.1 |
6 | Nationality | 64.2 |
7 | Disability | 66.7 |
8 | Physical appearance | 77.8 |
9 | Socioeconomic status | 71.5 |
LLaMA Average | 66.6 |
表3-我们模型输出的偏见摘要
数据:用于训练模型的数据收集自各个来源,主要来自Web。因此,它包含冒犯、有害和有偏见的内容。因此,我们预计模型会展示出这些训练数据中的偏见。
人类生活:该模型不用于对涉及人类生活核心问题的决策进行信息提供,不应以这种方式使用。
缓解措施:我们根据数据与维基百科文本和参考之间的接近程度对Web中的数据进行了过滤。为此,我们使用了Kneser-Ney语言模型和fastText线性分类器。
风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或带有偏见的内容。这些模型往往容易生成不正确的信息,有时被称为幻觉。我们不希望我们的模型在这方面成为例外。
用例:LLaMA是一个基础模型,因此在没有进一步调查和风险缓解措施的情况下,不应将其用于下游应用。这些风险和潜在的困难用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性的内容。