asi/gpt-fr-cased-base | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

asi/gpt-fr-cased-base

任务:

文本生成

类库:

PyTorch TensorFlow JAX Transformers

语言:

其他:

gpt2 Eval Results text-generation-inference

许可:

apache-2.0

模型介绍文件清单

英文

模型描述

GPT-fr 🇫🇷 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的用于法语的GPT模型。我们在一个非常大而多样化的法语语料库上对模型进行训练。我们发布以下配置的权重：

Model name	Number of layers	Attention Heads	Embedding Dimension	Total Parameters
gpt-fr-cased-small	12	12	768	124 M
gpt-fr-cased-base	24	14	1,792	1,017 B

预计用途和限制

该模型可用于语言生成任务。此外，许多任务可以被格式化为直接生成自然语言的输出。这样的配置可用于自动摘要或问答等任务。我们希望我们的模型可以在学术和工业应用中使用。

如何使用

该模型可以通过惊人的🤗 Transformers库来使用。我们使用了Shoeybi等人的工作，并调整了我们的模型，以便在预训练或微调过程中，模型可以适应单个NVIDIA V100 32GB GPU。

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Load pretrained model and tokenizer
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# Generate a sample of text
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

限制和偏差

大型语言模型往往会复制预训练数据集中存在的偏见，例如性别歧视或生成冒犯性内容。

为了限制暴露给过多的明确内容，我们事先仔细选择了数据来源。这个过程 - 在我们的论文中详细描述 - 旨在通过不进行手动和武断的过滤，限制模型生成冒犯性内容的能力。

然而，一些包含在数据中的社会偏见可能会在模型中得到反映。例如，在性别平等方面，我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste en tant _______”。我们使用了k值为50的top-k随机抽样策略，并在第一个标点符号元素处停止。妻子的职位是'que professeur de français.'，而丈夫的职位是'que chef de projet.'。我们非常希望能够获得您的反馈，以更好地定性和定量地评估这些效果。

训练数据

我们创建了一个专门的语料库来训练我们的生成模型。事实上，该模型使用了固定长度为1,024的上下文大小，并且需要长文档进行训练。我们汇总了现有的语料库： Wikipedia ， OpenSubtitle （Tiedemann, 2012）， Gutenberg 和 Common Crawl （Li等人，2019）。语料库经过过滤，并将连续的句子连接在一起，每个文档限制为1,024个令牌。

训练过程

我们在新的CNRS（法国科学研究中心） Jean Zay 超级计算机上对模型进行了预训练。我们在Tesla V-100硬件上总共进行了140小时的计算训练（功耗为300W）。训练分布在4个计算节点的8个GPU上。我们使用数据并行化方法将每个微批次分割成计算单元。我们估计总排放量为580.61kgCO2eq，使用了Lacoste等人提供的 Machine Learning Impact calculator 。

评估结果

我们为GPT-fr提供了专门的法语语言模型评估基准。与英文中的 WikiText 基准一致，我们从经过验证的 good 和 featured 维基百科文章集合中收集了超过7000万个标记。该模型在测试集上达到了零-shot困惑度12.9。

BibTeX条目和引用信息

除了HuggingFace Transformers库中托管的模型外，我们还维护了一个 git repository 。如果您在科学出版物或工业应用中使用GPT-fr，请引用以下论文：

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
  AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

参考资料

Jörg Tiedemann：在OPUS中的并行数据、工具和接口。LREC 2012: 2214-2218 Xian Li、Paul Michel、Antonios Anastasopoulos、Yonatan Belinkov、Nadir Durrani、Orhan Firat、Philipp Koehn、Graham Neubig、Juan Pino、Hassan Sajjad：机器翻译稳健性第一个共享任务的发现。WMT（2）2019: 91-102 Mohammad Shoeybi、Mostofa Patwary、Raul Puri、Patrick LeGresley、Jared Casper、Bryan Catanzaro：Megatron-LM：使用模型并行性训练数十亿参数的语言模型。CoRR abs/1909.08053（2019）Alexandre Lacoste、Alexandra Luccioni、Victor Schmidt、Thomas Dandres：Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700（2019）

作者:

Antoine SIMOULIN

数据集大小:

11.39 GB