模型:

decapoda-research/llama-30b-hf

英文

LLaMA-30B转化为Transformers/HuggingFace可用的模型。这是根据特殊许可证操作的,请参阅LICENSE文件了解详细信息。

--许可证:其他

LLaMA模型卡片

模型详情

开发模型的组织:Meta AI的FAIR团队。

模型日期:LLaMA在2022年12月至2023年2月之间进行训练。

模型版本:这是模型的第一个版本。

模型类型:LLaMA是基于Transformer架构的自回归语言模型。该模型有不同的大小:7B、13B、33B和65B参数。

有关更多信息的论文或资源:更多信息可以在“LLaMA,开放且高效的基础语言模型”论文中找到,可在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 处获取。

引用详情: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

许可证:非商业定制许可证

有关模型的问题或意见,请发送到以下位置:有关LLaMA的问题和意见可以通过项目的 GitHub repository 处的 GitHub repository 发送。

预期用途

主要预期用途:LLaMA的主要用途是研究大型语言模型,包括:探索潜在的应用,如问答、自然语言理解或阅读理解;理解当前语言模型的能力和局限性,并开发改进这些模型的技术;评估和缓解偏见、风险、有毒和有害内容的生成、幻觉。

主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。

不包括的用例:LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型没有经过人类反馈的训练,因此可能生成有害或冒犯性的内容、错误的信息或一般上无用的答案。

因素

相关因素:可能影响模型性能的最重要因素之一是使用的语言。尽管我们在训练数据中包含了20种语言,但我们的数据集中大部分是英语文本,因此我们预计该模型在英语方面的表现会更好。相关地,在之前的研究中已经证明,对不同的方言性能可能会有所不同,我们预计对我们的模型也是如此。

评估因素:由于我们的模型是在Web数据上进行训练的,我们预计它会反映出来自该数据源的偏见。因此,我们评估了模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面表现出的偏见。我们还根据提示模型时上下文的有害度来衡量模型输出的有毒性。

指标

模型性能度量:我们使用以下指标来评估模型:

  • 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench hard、WinoGender和CrowS-Pairs的准确率
  • 问答的准确匹配
  • 来自Perspective API的RealToxicityPrompts的有毒性评分

决策阈值:不适用。

不确定性和可变性的方法:由于训练LLMs需要非常高的计算要求,我们只训练了每个尺寸的一个模型,因此无法评估预训练的可变性。

评估数据集

该模型在以下基准测试中进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。

训练数据集

该模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、维基百科 [4.5%]、图书 [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。维基百科和图书领域的数据中包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息,请参见论文。

定量分析

模型架构的超参数

LLaMA Model hyper parameters
Number of parameters dimension n heads n layers Learn rate Batch size n tokens
7B 4096 32 32 3.0E-04 4M 1T
13B 5120 40 40 3.0E-04 4M 1T
33B 6656 52 60 1.5.E-04 4M 1.4T
65B 8192 64 80 1.5.E-04 4M 1.4T

表1 - LLama模型超参数摘要

我们在下表中呈现了在八个标准通识推理基准测试中的结果。

LLaMA Reasoning tasks
Number of parameters BoolQ PIQA SIQA HellaSwag WinoGrande ARC-e ARC-c OBQA COPA
7B 76.5 79.8 48.9 76.1 70.1 76.7 47.6 57.2 93
13B 78.1 80.1 50.4 79.2 73 78.1 52.7 56.4 94
33B 83.1 82.3 50.4 82.8 76 81.4 57.8 58.6 92
65B 85.3 82.8 52.3 84.2 77 81.5 56 60.2 94

表2 - Llama模型在推理任务上的性能摘要

我们在下表中呈现了我们模型的偏见结果。请注意,较低的值表示较低的偏见。

No Category FAIR LLM
1 Gender 70.6
2 Religion 79
3 Race/Color 57
4 Sexual orientation 81
5 Age 70.1
6 Nationality 64.2
7 Disability 66.7
8 Physical appearance 77.8
9 Socioeconomic status 71.5
LLaMA Average 66.6

表3 - 我们模型输出的偏见摘要

伦理考虑

数据:用于训练模型的数据是从各种来源收集的,主要来自Web。因此,数据中包含冒犯、有害和有偏见的内容。因此,我们预计模型会展示出这些来自训练数据的偏见。

人类生活:该模型不打算用于影响人类生活中的重大决策,不应以这种方式使用。

缓解措施:我们根据与维基百科文本和参考文献的相似性来过滤Web上的数据。为此,我们使用了Kneser-Ney语言模型和fastText线性分类器。

风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型通常容易生成不正确的信息,有时被称为幻觉。我们不希望我们的模型在这方面是个例外。

用例:LLaMA是一个基础模型,因此在没有进一步调查和风险缓解措施的情况下,不应在下游应用中使用。这些风险和潜在的问题用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性内容。