英文

模型描述

GPT-fr ?? 是由 Quantmetry Laboratoire de Linguistique Formelle (LLF) 开发的用于法语的GPT模型。我们在一个非常大而多样化的法语语料库上对模型进行训练。我们发布以下配置的权重:

Model name Number of layers Attention Heads Embedding Dimension Total Parameters
gpt-fr-cased-small 12 12 768 124 M
gpt-fr-cased-base 24 14 1,792 1,017 B

预计用途和限制

该模型可用于语言生成任务。此外,许多任务可以被格式化为直接生成自然语言的输出。这样的配置可用于自动摘要或问答等任务。我们希望我们的模型可以在学术和工业应用中使用。

如何使用

该模型可以通过惊人的? Transformers库来使用。我们使用了Shoeybi等人的工作,并调整了我们的模型,以便在预训练或微调过程中,模型可以适应单个NVIDIA V100 32GB GPU。

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Load pretrained model and tokenizer
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# Generate a sample of text
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
限制和偏差

大型语言模型往往会复制预训练数据集中存在的偏见,例如性别歧视或生成冒犯性内容。

为了限制暴露给过多的明确内容,我们事先仔细选择了数据来源。这个过程 - 在我们的论文中详细描述 - 旨在通过不进行手动和武断的过滤,限制模型生成冒犯性内容的能力。

然而,一些包含在数据中的社会偏见可能会在模型中得到反映。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste en tant _______”。我们使用了k值为50的top-k随机抽样策略,并在第一个标点符号元素处停止。妻子的职位是'que professeur de français.',而丈夫的职位是'que chef de projet.'。我们非常希望能够获得您的反馈,以更好地定性和定量地评估这些效果。

训练数据

我们创建了一个专门的语料库来训练我们的生成模型。事实上,该模型使用了固定长度为1,024的上下文大小,并且需要长文档进行训练。我们汇总了现有的语料库: Wikipedia OpenSubtitle (Tiedemann, 2012), Gutenberg Common Crawl (Li等人,2019)。语料库经过过滤,并将连续的句子连接在一起,每个文档限制为1,024个令牌。

训练过程

我们在新的CNRS(法国科学研究中心) Jean Zay 超级计算机上对模型进行了预训练。我们在Tesla V-100硬件上总共进行了140小时的计算训练(功耗为300W)。训练分布在4个计算节点的8个GPU上。我们使用数据并行化方法将每个微批次分割成计算单元。我们估计总排放量为580.61kgCO2eq,使用了Lacoste等人提供的 Machine Learning Impact calculator

评估结果

我们为GPT-fr提供了专门的法语语言模型评估基准。与英文中的 WikiText 基准一致,我们从经过验证的 good featured 维基百科文章集合中收集了超过7000万个标记。该模型在测试集上达到了零-shot困惑度12.9。

BibTeX条目和引用信息

除了HuggingFace Transformers库中托管的模型外,我们还维护了一个 git repository 。如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
  AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

参考资料

Jörg Tiedemann:在OPUS中的并行数据、工具和接口。LREC 2012: 2214-2218 Xian Li、Paul Michel、Antonios Anastasopoulos、Yonatan Belinkov、Nadir Durrani、Orhan Firat、Philipp Koehn、Graham Neubig、Juan Pino、Hassan Sajjad:机器翻译稳健性第一个共享任务的发现。WMT(2)2019: 91-102 Mohammad Shoeybi、Mostofa Patwary、Raul Puri、Patrick LeGresley、Jared Casper、Bryan Catanzaro:Megatron-LM:使用模型并行性训练数十亿参数的语言模型。CoRR abs/1909.08053(2019)Alexandre Lacoste、Alexandra Luccioni、Victor Schmidt、Thomas Dandres:Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700(2019)