模型:
decapoda-research/llama-30b-hf
LLaMA-30B转化为Transformers/HuggingFace可用的模型。这是根据特殊许可证操作的,请参阅LICENSE文件了解详细信息。
--许可证:其他
开发模型的组织:Meta AI的FAIR团队。
模型日期:LLaMA在2022年12月至2023年2月之间进行训练。
模型版本:这是模型的第一个版本。
模型类型:LLaMA是基于Transformer架构的自回归语言模型。该模型有不同的大小:7B、13B、33B和65B参数。
有关更多信息的论文或资源:更多信息可以在“LLaMA,开放且高效的基础语言模型”论文中找到,可在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 处获取。
引用详情: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证:非商业定制许可证
有关模型的问题或意见,请发送到以下位置:有关LLaMA的问题和意见可以通过项目的 GitHub repository 处的 GitHub repository 发送。
主要预期用途:LLaMA的主要用途是研究大型语言模型,包括:探索潜在的应用,如问答、自然语言理解或阅读理解;理解当前语言模型的能力和局限性,并开发改进这些模型的技术;评估和缓解偏见、风险、有毒和有害内容的生成、幻觉。
主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
不包括的用例:LLaMA是一个基础模型,因此在没有进一步的风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型没有经过人类反馈的训练,因此可能生成有害或冒犯性的内容、错误的信息或一般上无用的答案。
相关因素:可能影响模型性能的最重要因素之一是使用的语言。尽管我们在训练数据中包含了20种语言,但我们的数据集中大部分是英语文本,因此我们预计该模型在英语方面的表现会更好。相关地,在之前的研究中已经证明,对不同的方言性能可能会有所不同,我们预计对我们的模型也是如此。
评估因素:由于我们的模型是在Web数据上进行训练的,我们预计它会反映出来自该数据源的偏见。因此,我们评估了模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面表现出的偏见。我们还根据提示模型时上下文的有害度来衡量模型输出的有毒性。
模型性能度量:我们使用以下指标来评估模型:
决策阈值:不适用。
不确定性和可变性的方法:由于训练LLMs需要非常高的计算要求,我们只训练了每个尺寸的一个模型,因此无法评估预训练的可变性。
该模型在以下基准测试中进行了评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
该模型使用以下数据源进行训练:CCNet [67%]、C4 [15%]、GitHub [4.5%]、维基百科 [4.5%]、图书 [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。维基百科和图书领域的数据中包括以下语言的数据:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息,请参见论文。
模型架构的超参数
LLaMA | Model hyper parameters | |||||
---|---|---|---|---|---|---|
Number of parameters | dimension | n heads | n layers | Learn rate | Batch size | n tokens |
7B | 4096 | 32 | 32 | 3.0E-04 | 4M | 1T |
13B | 5120 | 40 | 40 | 3.0E-04 | 4M | 1T |
33B | 6656 | 52 | 60 | 1.5.E-04 | 4M | 1.4T |
65B | 8192 | 64 | 80 | 1.5.E-04 | 4M | 1.4T |
表1 - LLama模型超参数摘要
我们在下表中呈现了在八个标准通识推理基准测试中的结果。
LLaMA | Reasoning tasks | ||||||||
---|---|---|---|---|---|---|---|---|---|
Number of parameters | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | COPA |
7B | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 76.7 | 47.6 | 57.2 | 93 |
13B | 78.1 | 80.1 | 50.4 | 79.2 | 73 | 78.1 | 52.7 | 56.4 | 94 |
33B | 83.1 | 82.3 | 50.4 | 82.8 | 76 | 81.4 | 57.8 | 58.6 | 92 |
65B | 85.3 | 82.8 | 52.3 | 84.2 | 77 | 81.5 | 56 | 60.2 | 94 |
表2 - Llama模型在推理任务上的性能摘要
我们在下表中呈现了我们模型的偏见结果。请注意,较低的值表示较低的偏见。
No | Category | FAIR LLM |
---|---|---|
1 | Gender | 70.6 |
2 | Religion | 79 |
3 | Race/Color | 57 |
4 | Sexual orientation | 81 |
5 | Age | 70.1 |
6 | Nationality | 64.2 |
7 | Disability | 66.7 |
8 | Physical appearance | 77.8 |
9 | Socioeconomic status | 71.5 |
LLaMA Average | 66.6 |
表3 - 我们模型输出的偏见摘要
数据:用于训练模型的数据是从各种来源收集的,主要来自Web。因此,数据中包含冒犯、有害和有偏见的内容。因此,我们预计模型会展示出这些来自训练数据的偏见。
人类生活:该模型不打算用于影响人类生活中的重大决策,不应以这种方式使用。
缓解措施:我们根据与维基百科文本和参考文献的相似性来过滤Web上的数据。为此,我们使用了Kneser-Ney语言模型和fastText线性分类器。
风险和危害:大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型通常容易生成不正确的信息,有时被称为幻觉。我们不希望我们的模型在这方面是个例外。
用例:LLaMA是一个基础模型,因此在没有进一步调查和风险缓解措施的情况下,不应在下游应用中使用。这些风险和潜在的问题用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性内容。