模型:

decapoda-research/llama-7b-hf

英文

LLaMA-7B转换为适用于Transformers / HuggingFace的工作。根据特殊许可证发布,详细信息请参阅LICENSE文件。

许可证:其他

LLaMA模型卡片

模型详情

开发该模型的组织:Meta AI的FAIR团队。

模型日期:LLaMA的训练时间为2022年12月至2023年2月。

模型版本:这是模型的第一个版本。

模型类型:LLaMA是一种自回归语言模型,基于Transformer架构。该模型有不同大小的版本:7B、13B、33B和65B参数。

了解更多信息的论文或资源:可以在以下位置找到更多信息:“LLaMA,开放高效的基础语言模型”,可以在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 处获得。

引用详情: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

许可证:非商业特许许可证

如何发送有关模型的问题或评论:可以通过项目的 GitHub repository 或打开一个issue来发送关于LLaMA的问题和评论。

预期使用

主要预期用途:LLaMA的主要用途是研究大型语言模型,包括:探索潜在应用,如问答、自然语言理解或阅读理解;了解当前语言模型的能力和局限性,并开发改进它们的技术;评估和缓解偏见、风险、有害内容的生成和幻觉。

主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。

不在范围内的用例:LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型没有经过人工反馈训练,因此可能生成有害或冒犯性内容、不正确的信息或一般无用的回答。

因素

相关因素:影响模型性能变化最显著的因素之一是使用的语言。尽管我们在训练数据中包括了20种语言,但我们的数据集大部分由英文文本组成,因此我们预计模型在英文方面的表现会比其他语言更好。相关地,先前的研究表明,对不同方言的性能可能会有所差异,我们预计我们的模型也会如此。

评估因素:由于我们的模型是在Web数据上训练的,我们预计它会反映出这些来源的偏见。因此,我们对性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等模型生成的偏见进行了RAI数据集的评估。同时,我们还根据提示模型的上下文的有毒性来评估模型生成的有毒性。

指标

模型性能评估指标:我们使用以下指标来评估模型:

  • 通识推理、阅读理解、自然语言理解(MMLU)、BIG-bench困难、WinoGender和CrowS-Pairs的准确率。
  • 问答的准确匹配。
  • Perspective API在RealToxicityPrompts上的有毒性评分。

决策阈值:不适用。

不确定性和可变性的方法:由于训练LLM的计算要求较高,我们只训练了每个大小的一个模型,因此无法评估预训练的可变性。

评估数据集

该模型在以下基准测试上进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench困难、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。

训练数据集

该模型使用以下数据源进行了训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。Wikipedia和Books领域的数据包括以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的详细信息,请参阅论文。

定量分析

模型架构的超参数

LLaMA Model hyper parameters
Number of parameters dimension n heads n layers Learn rate Batch size n tokens
7B 4096 32 32 3.0E-04 4M 1T
13B 5120 40 40 3.0E-04 4M 1T
33B 6656 52 60 1.5.E-04 4M 1.4T
65B 8192 64 80 1.5.E-04 4M 1.4T

表1- LLama模型超参数摘要

我们在下表中总结了我们在八个常见的通识推理基准测试上的结果。

LLaMA Reasoning tasks
Number of parameters BoolQ PIQA SIQA HellaSwag WinoGrande ARC-e ARC-c OBQA COPA
7B 76.5 79.8 48.9 76.1 70.1 76.7 47.6 57.2 93
13B 78.1 80.1 50.4 79.2 73 78.1 52.7 56.4 94
33B 83.1 82.3 50.4 82.8 76 81.4 57.8 58.6 92
65B 85.3 82.8 52.3 84.2 77 81.5 56 60.2 94

表2- LLama模型在推理任务上的性能摘要

我们在下表中总结了我们模型输出中的偏见。请注意,较低的值表示较低的偏见。

No Category FAIR LLM
1 Gender 70.6
2 Religion 79
3 Race/Color 57
4 Sexual orientation 81
5 Age 70.1
6 Nationality 64.2
7 Disability 66.7
8 Physical appearance 77.8
9 Socioeconomic status 71.5
LLaMA Average 66.6

表3- 我们模型输出的偏见摘要

伦理考虑

数据:用于训练模型的数据来自各种来源,主要来自Web。因此,它包含冒犯性、有害和有偏见的内容。我们因此预计模型会展示出来自训练数据的这些偏见。

人类生活:模型不打算用于决策与人类生活核心相关的事项,并且不应以这种方式使用。

缓解措施:我们使用Kneser-Ney语言模型和fastText线性分类器基于与Wikipedia文本和参考文献的接近程度来过滤来自Web的数据。

风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型通常容易生成不正确的信息,有时被称为幻觉。在这方面,我们不认为我们的模型是个例外。

用例:LLaMA是一种基础模型,因此在没有进一步调查和风险缓解措施的情况下,不应将其用于下游应用。这些风险和潜在的棘手用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性的内容。