模型:
asi/gpt-fr-cased-base
GPT-fr ?? 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的用于法语的GPT模型。我们在一个非常大而多样化的法语语料库上对模型进行训练。我们发布以下配置的权重:
Model name | Number of layers | Attention Heads | Embedding Dimension | Total Parameters |
---|---|---|---|---|
gpt-fr-cased-small | 12 | 12 | 768 | 124 M |
gpt-fr-cased-base | 24 | 14 | 1,792 | 1,017 B |
该模型可用于语言生成任务。此外,许多任务可以被格式化为直接生成自然语言的输出。这样的配置可用于自动摘要或问答等任务。我们希望我们的模型可以在学术和工业应用中使用。
如何使用该模型可以通过惊人的? Transformers库来使用。我们使用了Shoeybi等人的工作,并调整了我们的模型,以便在预训练或微调过程中,模型可以适应单个NVIDIA V100 32GB GPU。
from transformers import GPT2Tokenizer, GPT2LMHeadModel # Load pretrained model and tokenizer model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base") tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base") # Generate a sample of text model.eval() input_sentence = "Longtemps je me suis couché de bonne heure." input_ids = tokenizer.encode(input_sentence, return_tensors='pt') beam_outputs = model.generate( input_ids, max_length=100, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1 ) print("Output:\n" + 100 * '-') print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))限制和偏差
大型语言模型往往会复制预训练数据集中存在的偏见,例如性别歧视或生成冒犯性内容。
为了限制暴露给过多的明确内容,我们事先仔细选择了数据来源。这个过程 - 在我们的论文中详细描述 - 旨在通过不进行手动和武断的过滤,限制模型生成冒犯性内容的能力。
然而,一些包含在数据中的社会偏见可能会在模型中得到反映。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste en tant _______”。我们使用了k值为50的top-k随机抽样策略,并在第一个标点符号元素处停止。妻子的职位是'que professeur de français.',而丈夫的职位是'que chef de projet.'。我们非常希望能够获得您的反馈,以更好地定性和定量地评估这些效果。
我们创建了一个专门的语料库来训练我们的生成模型。事实上,该模型使用了固定长度为1,024的上下文大小,并且需要长文档进行训练。我们汇总了现有的语料库: Wikipedia , OpenSubtitle (Tiedemann, 2012), Gutenberg 和 Common Crawl (Li等人,2019)。语料库经过过滤,并将连续的句子连接在一起,每个文档限制为1,024个令牌。
我们在新的CNRS(法国科学研究中心) Jean Zay 超级计算机上对模型进行了预训练。我们在Tesla V-100硬件上总共进行了140小时的计算训练(功耗为300W)。训练分布在4个计算节点的8个GPU上。我们使用数据并行化方法将每个微批次分割成计算单元。我们估计总排放量为580.61kgCO2eq,使用了Lacoste等人提供的 Machine Learning Impact calculator 。
我们为GPT-fr提供了专门的法语语言模型评估基准。与英文中的 WikiText 基准一致,我们从经过验证的 good 和 featured 维基百科文章集合中收集了超过7000万个标记。该模型在测试集上达到了零-shot困惑度12.9。
除了HuggingFace Transformers库中托管的模型外,我们还维护了一个 git repository 。如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900, TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}}, AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit}, URL = {https://hal.archives-ouvertes.fr/hal-03265900}, BOOKTITLE = {{Traitement Automatique des Langues Naturelles}}, ADDRESS = {Lille, France}, EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio}, PUBLISHER = {{ATALA}}, PAGES = {246-255}, YEAR = {2021}, KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}}, PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf}, HAL_ID = {hal-03265900}, HAL_VERSION = {v1}, }