模型:

decapoda-research/llama-65b-hf

英文

LLaMA-65B转换为与Transformers/HuggingFace一起使用。这是根据特殊许可证进行的转换,请查看LICENSE文件以获取详细信息。

--许可证:其他

LLaMA模型卡片

模型详情

开发该模型的组织:Meta AI的FAIR团队。

模型日期:LLaMA是在2022年12月至2023年2月之间进行训练的。

模型版本:这是模型的第一个版本。

模型类型:LLaMA是一种自回归语言模型,基于transformer架构。该模型有不同的规模:7B,13B,33B和65B个参数。

有关更多信息的论文或资源:更多信息可以在论文“LLaMA, Open and Efficient Foundation Language Models”中找到,可在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 获取。

引文详细信息: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

许可证:非商业定制许可证

如何发送有关模型的问题或评论:有关LLaMA的问题和评论可以通过项目的 GitHub repository 发送,也可以通过打开一个问题。

拟合使用

主要拟合用途:LLaMA的主要用途是研究大型语言模型,包括探索潜在的应用,如问答、自然语言理解或阅读理解,了解当前语言模型的能力和限制,并开发改善这些模型的技术,评估和减轻偏见、风险、有毒和有害内容的生成、幻觉。

主要拟合用户:该模型的主要拟合用户是自然语言处理、机器学习和人工智能领域的研究人员。

不适用的用例:LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解措施之前,不应将其用于下游应用。特别是,我们的模型未经人类反馈进行训练,因此可能生成有毒或冒犯性内容、不正确的信息或一般无用的答案。

因素

相关因素:模型性能可能变化的最相关因素之一是使用的语言。尽管我们在训练数据中包含了20种语言,但我们的数据集中大部分是英文文本,因此我们预计该模型在英语方面的表现会更好。与此相关的是,之前的研究表明,性能可能因不同的方言而有所变化,我们预计我们的模型也是如此。

评估因素:由于我们的模型在Web数据上进行训练,因此我们预计它会反映来自该来源的偏见。因此,我们使用RAI数据集评估模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位方面展示的偏见,以及模型生成行为的有毒性,这取决于用于提示模型的上下文的有毒性。

指标

模型性能度量:我们使用以下指标来评估模型:

  • 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench难度、WinoGender和CrowS-Pairs的准确性,
  • 问题回答的精确匹配,
  • Perspective API在RealToxicityPrompts上的有毒性分数。

决策阈值:不适用。

不确定性和可变性的方法:由于培训LLMs的高计算要求,我们只训练了每个大小的一个模型,因此无法评估预训练的可变性。

评估数据集

该模型在以下基准数据集上进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench难度、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。

训练数据集

模型使用以下数据源进行训练:CCNet [67%],C4 [15%],GitHub [4.5%],Wikipedia [4.5%],Books [4.5%],ArXiv [2.5%],Stack Exchange [2%]。维基百科和书籍域包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多细节,请参阅论文。

定量分析

模型架构的超参数

LLaMA Model hyper parameters
Number of parameters dimension n heads n layers Learn rate Batch size n tokens
7B 4096 32 32 3.0E-04 4M 1T
13B 5120 40 40 3.0E-04 4M 1T
33B 6656 52 60 1.5.E-04 4M 1.4T
65B 8192 64 80 1.5.E-04 4M 1.4T

表1-LLama模型超参数摘要

我们在下表中呈现了对八个标准常识推理基准的结果。

LLaMA Reasoning tasks
Number of parameters BoolQ PIQA SIQA HellaSwag WinoGrande ARC-e ARC-c OBQA COPA
7B 76.5 79.8 48.9 76.1 70.1 76.7 47.6 57.2 93
13B 78.1 80.1 50.4 79.2 73 78.1 52.7 56.4 94
33B 83.1 82.3 50.4 82.8 76 81.4 57.8 58.6 92
65B 85.3 82.8 52.3 84.2 77 81.5 56 60.2 94

表2-LLama模型在推理任务上的性能摘要

我们在下表中呈现了偏见的结果。请注意,较低的值表示较低的偏见。

No Category FAIR LLM
1 Gender 70.6
2 Religion 79
3 Race/Color 57
4 Sexual orientation 81
5 Age 70.1
6 Nationality 64.2
7 Disability 66.7
8 Physical appearance 77.8
9 Socioeconomic status 71.5
LLaMA Average 66.6

表3-我们模型输出的偏见摘要

伦理考虑

数据:用于训练模型的数据收集自各个来源,主要来自Web。因此,它包含冒犯、有害和有偏见的内容。因此,我们预计模型会展示出这些训练数据中的偏见。

人类生活:该模型不用于对涉及人类生活核心问题的决策进行信息提供,不应以这种方式使用。

缓解措施:我们根据数据与维基百科文本和参考之间的接近程度对Web中的数据进行了过滤。为此,我们使用了Kneser-Ney语言模型和fastText线性分类器。

风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或带有偏见的内容。这些模型往往容易生成不正确的信息,有时被称为幻觉。我们不希望我们的模型在这方面成为例外。

用例:LLaMA是一个基础模型,因此在没有进一步调查和风险缓解措施的情况下,不应将其用于下游应用。这些风险和潜在的困难用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性的内容。