模型:

decapoda-research/llama-13b-hf

英文

LLaMA-13B转换为与Transformers / HuggingFace配合使用。 这是根据特殊许可证,详细信息请参阅LICENSE文件。

--license: other

LLaMA模型卡片

模型详细信息

开发模型的组织是Meta AI的FAIR团队。

模型日期LLaMA在2022年12月至2023年2月之间进行训练。

模型版本这是模型的第一个版本。

模型类型LLaMA是一种自回归语言模型,基于transformer架构。模型有不同的大小:7B、13B、33B和65B参数。

有关更多信息的论文或资源可以在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 中的“LLaMA, 开放和高效的基础语言模型”中找到。

引文详细信息 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

许可证 非商业定制许可证

问题或评论模型的地方可以通过项目中的网站 GitHub repository ,通过提出问题的问题。

预期使用

主要预期用途LLaMA的主要用途是研究大型语言模型,包括:探索潜在应用,如问答,自然语言理解或阅读理解,了解当前语言模型的能力和限制,并开发改进这些技术,评估和减轻偏见,风险,有毒和有害内容的生成,幻觉。

主要预期用户模型的主要预期用户是自然语言处理,机器学习和人工智能研究人员。

不在范围之内的用例LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解的情况下,不应用于下游应用程序。特别是,我们的模型没有经过人类反馈的训练,因此可能生成有毒或冒犯性的内容,不正确的信息或一般无用的答案。

因素

相关因素模型性能可能会有所变化的一个最相关的因素是使用的语言。尽管我们在训练数据中包括了20种语言,但我们的大部分数据集都是由英文文本组成的,因此我们预计模型在英语方面的表现会更好。相关地,先前的研究已经表明,对不同方言的表现可能会有所不同,我们预计我们的模型也会是如此。

评估因素由于我们的模型是基于Web数据训练的,我们预计它会反映出这一来源的偏见。因此,我们在RAI数据集上进行了评估,以衡量模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位方面表现出的偏见。我们还根据提示模型的上下文的毒性来测量模型生成的毒性。

指标

模型性能指标我们使用以下指标来评估模型:

  • 常识推理、阅读理解、自然语言理解的准确率(MMLU)、BIG-bench hard,WinoGender和CrowS-Pairs
  • 问答的精确匹配度
  • Perspective API在RealToxicityPrompts上的毒性分数

决策阈值不适用。

不确定性和可变性的方法由于培训LLM的高计算要求,我们只训练了每个大小的一个模型,因此无法评估预训练的变异性。

评估数据集

模型在以下基准测试中进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。

训练数据集

模型是使用以下数据来源进行训练的:CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。维基百科和图书领域包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关培训集和相应预处理的更多详细信息,请参阅论文。

定量分析

模型架构的超参数

LLaMA Model hyper parameters
Number of parameters dimension n heads n layers Learn rate Batch size n tokens
7B 4096 32 32 3.0E-04 4M 1T
13B 5120 40 40 3.0E-04 4M 1T
33B 6656 52 60 1.5.E-04 4M 1.4T
65B 8192 64 80 1.5.E-04 4M 1.4T

表1-LLama模型超参数摘要

我们在下表中展示了我们在八个常见的常识推理基准测试中的结果.

LLaMA Reasoning tasks
Number of parameters BoolQ PIQA SIQA HellaSwag WinoGrande ARC-e ARC-c OBQA COPA
7B 76.5 79.8 48.9 76.1 70.1 76.7 47.6 57.2 93
13B 78.1 80.1 50.4 79.2 73 78.1 52.7 56.4 94
33B 83.1 82.3 50.4 82.8 76 81.4 57.8 58.6 92
65B 85.3 82.8 52.3 84.2 77 81.5 56 60.2 94
*表2-LLama模型在推理任务上的性能摘要*

我们在下表中展示了我们的模型输出的偏见摘要的结果。请注意,较低的值表示较低的偏见。

No Category FAIR LLM
1 Gender 70.6
2 Religion 79
3 Race/Color 57
4 Sexual orientation 81
5 Age 70.1
6 Nationality 64.2
7 Disability 66.7
8 Physical appearance 77.8
9 Socioeconomic status 71.5
LLaMA Average 66.6

表3-我们模型输出的偏见摘要

道德考虑

数据用于训练模型的数据是从各种来源收集的,主要来自Web。因此,它包含冒犯,有害和有偏见的内容。因此,我们预计模型会展示出来自训练数据的这种偏见。

人类生活模型不旨在为人类生活的核心问题提供决策,并且不应以这种方式使用。

缓解我们根据与维基百科文本和引用的接近程度来过滤Web数据。为此,我们使用了Kneser-Ney语言模型和fastText线性分类器。

风险和危害大型语言模型的风险和危害包括生成有害,冒犯或有偏见的内容。这些模型通常容易生成不正确的信息,有时被称为幻觉。我们不希望我们的模型在这方面是个例外。

用例LLaMA是一个基础模型,因此,在进一步调查和风险缓解之前,不应将其用于下游应用程序。这些风险和潜在的问题用例包括但不限于:生成误导信息和生成有害,有偏见或冒犯性的内容。