版本1.0 / 2022年5月26日
此部分提供了有关该模型的信息,适用于任何希望了解该模型的人。
点击展开开发者:BigScience( website )
模型类型:基于Transformer的语言模型
版本:1.0.0
语言:多种语言;请参阅训练数据
许可证:RAIL许可证v1.0( link )
预计发布日期:2022年7月11日(星期一)
提出问题:bigscience-contact@googlegroups.com
引用:BigScience,BigScience Language Open-science Open-access Multilingual(BLOOM)Language Model。国际,2021年5月-2022年5月
资助机构:
此部分提供给从事模型开发的人员的信息。
点击展开有关复制训练的完整详细信息,请参阅 the BLOOM training README 。
模型架构:修改自Megatron-LM GPT2(请参阅 paper , BLOOM Megatron code ):
目标函数:交叉熵和均值减少(请参阅 API documentation )。
计算基础设施:由法国政府提供的Jean Zay公共超级计算机(请参阅 announcement )。
训练日志: Tensorboard link
BLOOM分词器( link )是一种使用以下方法进行训练的学习子词分词器:
它使用经过alpha加权的语言预料的子集进行训练
训练超级计算机Jean Zay( website )主要使用核能。其产生的热量被再利用供暖校园内的住房。
预计碳排放量:(待完成训练后提供)
预计用电量:(待完成训练后提供)
此部分回答了关于模型的预期使用方法的问题,讨论了可能受模型影响的用户,并描述了被视为模型超出范围或误用的用途。它为考虑使用该模型或受该模型影响的任何人提供信息。
点击展开创建此模型是为了促进关于大型语言模型(LLM)的公共研究。LLM可用于语言生成或作为进一步微调用于特定任务的预训练基模型。下面列出的用例不是详尽无遗的。
直接使用本部分介绍用户不应该对模型进行的操作。
详细的使用限制请参见 BLOOM License 附件A。以下列表并非详尽无遗,但列出了一些容易预见到的问题用例。
超出范围的用途在高风险环境中使用模型超出了该模型的范围。该模型不适用于决策重大或对个人生计或福祉产生任何实质后果的用途。模型输出的内容似乎是事实,但实际上是不正确的。
超出范围的使用包括:故意将该模型用于伤害、侵犯人权或其他恶意活动属于对该模型的误用。包括:
本部分提供了对训练数据的高级概述。对于希望了解模型正在学习的基本知识的任何人,这是相关的。
点击展开每个数据集的详细信息在单独的 Data Cards 中提供。
训练数据包括:
饼图显示了训练数据中各种语言的分布。
下表显示了尼日尔-刚果语和印度语系语言在训练数据中的进一步分布。
点击展开Niger Congo | Percentage | Indic | Percentage |
---|---|---|---|
Chi Tumbuka | 0.00002 | Assamese | 0.01 |
Kikuyu | 0.00004 | Odia | 0.04 |
Bambara | 0.00004 | Gujarati | 0.04 |
Akan | 0.00007 | Marathi | 0.05 |
Xitsonga | 0.00007 | Punjabi | 0.05 |
Sesotho | 0.00007 | Kannada | 0.06 |
Chi Chewa | 0.0001 | Nepali | 0.07 |
Setswana | 0.0002 | Telugu | 0.09 |
Northern Sotho | 0.0002 | Malayalam | 0.10 |
Fon | 0.0002 | Urdu | 0.10 |
Kirundi | 0.0003 | Tamil | 0.20 |
Wolof | 0.0004 | Bengali | 0.50 |
Kuganda | 0.0004 | Hindi | 0.70 |
Chi Shona | 0.001 | ||
Isi Zulu | 0.001 | ||
Igbo | 0.001 | ||
Xhosa | 0.001 | ||
Kinyarwanda | 0.003 | ||
Yoruba | 0.006 | ||
Swahili | 0.02 |
下表显示了各种编程语言的分布。
点击展开Extension | Language | Number of files |
---|---|---|
java | Java | 5,407,724 |
php | PHP | 4,942,186 |
cpp | C++ | 2,503,930 |
py | Python | 2,435,072 |
js | JavaScript | 1,905,518 |
cs | C# | 1,577,347 |
rb | Ruby | 6,78,413 |
cc | C++ | 443,054 |
hpp | C++ | 391,048 |
lua | Lua | 352,317 |
go | GO | 227,763 |
ts | TypeScript | 195,254 |
C | C | 134,537 |
scala | Scala | 92,052 |
hh | C++ | 67,161 |
H | C++ | 55,899 |
tsx | TypeScript | 33,107 |
rs | Rust | 29,693 |
phpt | PHP | 9,702 |
c++ | C++ | 1,342 |
h++ | C++ | 791 |
php3 | PHP | 540 |
phps | PHP | 270 |
php5 | PHP | 166 |
php4 | PHP | 29 |
本部分认定了可预见的风险和误解。
点击展开模型可能会:
本部分描述了评估协议并提供结果。
点击展开本部分描述了计算性能的不同方式以及原因。
包括:
Metric | Why chosen |
---|---|
Perplexity | Standard metric for quantifying model improvements during training |
Cross Entropy Loss | Standard objective for language models. |
以及特定任务的多个不同指标。(完成评估协议后提供更多评估指标。)
本部分列出了BLOOM模型的不同方面,重点是可能导致模型行为变化较大的方面。
结果基于 因素 和 指标。
训练时评估:
截至2022年5月25日15:00(PST):
本部分提供关于警告和潜在缓解措施的信息。
点击展开本部分定义了常见术语以及如何计算指标。
点击展开博客文章详细介绍了数据集创建过程中的设计选择: https://bigscience.huggingface.co/blog/building-a-tb-scale-multilingual-dataset-for-language-modeling
博客文章概述了如何选择架构、大小、形状和预训练持续时间: https://bigscience.huggingface.co/blog/what-language-model-to-train-if-you-have-two-million-gpu-hours
有关架构/优化器的更多详细信息: https://github.com/bigscience-workshop/bigscience/tree/master/train/tr11-176B-ml
关于硬件/工程方面的博客文章: https://bigscience.huggingface.co/blog/which-hardware-to-train-a-176b-parameters-model
使用于训练的分布式设置的详细信息: https://github.com/bigscience-workshop/bigscience/tree/master/train/tr11-176B-ml
训练期间的Tensorboard更新: https://huggingface.co/bigscience/tr11-176B-ml-logs/tensorboard#scalars&tagFilter=loss
关于训练方法、负面结果的见解: https://github.com/bigscience-workshop/bigscience/blob/master/train/lessons-learned.md
解决工程方面的准备过程中的障碍(不稳定性、优化训练吞吐量、许多技术技巧和问题)的详细信息: https://github.com/bigscience-workshop/bigscience/blob/master/train/tr11-176B-ml/chronicles.md
使用临时检查点进行初始提示实验: https://huggingface.co/spaces/bigscience/bloom-book
按照时间顺序和所花时间的多少进行排序。
Margaret Mitchell, Giada Pistilli, Yacine Jernite, Ezinwanne Ozoani, Marissa Gerchick, Nazneen Rajani, Sasha Luccioni, Irene Solaiman, Maraim Masoud, Somaieh Nikpoor, Carlos Muñoz Ferrandis, Stas Bekman, Christopher Akiki, Danish Contractor, David Lansky, Angelina McMillan-Major, Tristan Thrush, Suzana Ilić, Gérard Dupont, Shayne Longpre, Manan Dey, Stella Biderman, Douwe Kiela, Emi Baylor, Teven Le Scao, Aaron Gokaslan, Julien Launay, Niklas Muennighoff