模型:
decapoda-research/llama-7b-hf
LLaMA-7B转换为适用于Transformers / HuggingFace的工作。根据特殊许可证发布,详细信息请参阅LICENSE文件。
许可证:其他
开发该模型的组织:Meta AI的FAIR团队。
模型日期:LLaMA的训练时间为2022年12月至2023年2月。
模型版本:这是模型的第一个版本。
模型类型:LLaMA是一种自回归语言模型,基于Transformer架构。该模型有不同大小的版本:7B、13B、33B和65B参数。
了解更多信息的论文或资源:可以在以下位置找到更多信息:“LLaMA,开放高效的基础语言模型”,可以在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 处获得。
引用详情: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证:非商业特许许可证
如何发送有关模型的问题或评论:可以通过项目的 GitHub repository 或打开一个issue来发送关于LLaMA的问题和评论。
主要预期用途:LLaMA的主要用途是研究大型语言模型,包括:探索潜在应用,如问答、自然语言理解或阅读理解;了解当前语言模型的能力和局限性,并开发改进它们的技术;评估和缓解偏见、风险、有害内容的生成和幻觉。
主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
不在范围内的用例:LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型没有经过人工反馈训练,因此可能生成有害或冒犯性内容、不正确的信息或一般无用的回答。
相关因素:影响模型性能变化最显著的因素之一是使用的语言。尽管我们在训练数据中包括了20种语言,但我们的数据集大部分由英文文本组成,因此我们预计模型在英文方面的表现会比其他语言更好。相关地,先前的研究表明,对不同方言的性能可能会有所差异,我们预计我们的模型也会如此。
评估因素:由于我们的模型是在Web数据上训练的,我们预计它会反映出这些来源的偏见。因此,我们对性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等模型生成的偏见进行了RAI数据集的评估。同时,我们还根据提示模型的上下文的有毒性来评估模型生成的有毒性。
模型性能评估指标:我们使用以下指标来评估模型:
决策阈值:不适用。
不确定性和可变性的方法:由于训练LLM的计算要求较高,我们只训练了每个大小的一个模型,因此无法评估预训练的可变性。
该模型在以下基准测试上进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench困难、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
该模型使用以下数据源进行了训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。Wikipedia和Books领域的数据包括以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的详细信息,请参阅论文。
模型架构的超参数
LLaMA | Model hyper parameters | |||||
---|---|---|---|---|---|---|
Number of parameters | dimension | n heads | n layers | Learn rate | Batch size | n tokens |
7B | 4096 | 32 | 32 | 3.0E-04 | 4M | 1T |
13B | 5120 | 40 | 40 | 3.0E-04 | 4M | 1T |
33B | 6656 | 52 | 60 | 1.5.E-04 | 4M | 1.4T |
65B | 8192 | 64 | 80 | 1.5.E-04 | 4M | 1.4T |
表1- LLama模型超参数摘要
我们在下表中总结了我们在八个常见的通识推理基准测试上的结果。
LLaMA | Reasoning tasks | ||||||||
---|---|---|---|---|---|---|---|---|---|
Number of parameters | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | COPA |
7B | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 76.7 | 47.6 | 57.2 | 93 |
13B | 78.1 | 80.1 | 50.4 | 79.2 | 73 | 78.1 | 52.7 | 56.4 | 94 |
33B | 83.1 | 82.3 | 50.4 | 82.8 | 76 | 81.4 | 57.8 | 58.6 | 92 |
65B | 85.3 | 82.8 | 52.3 | 84.2 | 77 | 81.5 | 56 | 60.2 | 94 |
表2- LLama模型在推理任务上的性能摘要
我们在下表中总结了我们模型输出中的偏见。请注意,较低的值表示较低的偏见。
No | Category | FAIR LLM |
---|---|---|
1 | Gender | 70.6 |
2 | Religion | 79 |
3 | Race/Color | 57 |
4 | Sexual orientation | 81 |
5 | Age | 70.1 |
6 | Nationality | 64.2 |
7 | Disability | 66.7 |
8 | Physical appearance | 77.8 |
9 | Socioeconomic status | 71.5 |
LLaMA Average | 66.6 |
表3- 我们模型输出的偏见摘要
数据:用于训练模型的数据来自各种来源,主要来自Web。因此,它包含冒犯性、有害和有偏见的内容。我们因此预计模型会展示出来自训练数据的这些偏见。
人类生活:模型不打算用于决策与人类生活核心相关的事项,并且不应以这种方式使用。
缓解措施:我们使用Kneser-Ney语言模型和fastText线性分类器基于与Wikipedia文本和参考文献的接近程度来过滤来自Web的数据。
风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型通常容易生成不正确的信息,有时被称为幻觉。在这方面,我们不认为我们的模型是个例外。
用例:LLaMA是一种基础模型,因此在没有进一步调查和风险缓解措施的情况下,不应将其用于下游应用。这些风险和潜在的棘手用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性的内容。