CodeGen (CodeGen-Multi 2B)

模型描述

CodeGen是一系列用于程序综合的自回归语言模型，来自Erik Nijkamp、Bo Pang、Hiroaki Hayashi、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong的论文 A Conversational Paradigm for Program Synthesis 。这些模型最初在 this repository 中发布，共有3个预训练数据变种（NL，Multi，Mono）和4个模型大小变种（350M，2B，6B，16B）。

此存储库中包含的检查点在论文中标记为CodeGen-Multi 2B，其中"Multi"表示模型是以CodeGen-NL 2B为初始值，并在多种编程语言的数据集上进一步进行了预训练，"2B"表示可训练参数的数量。

训练数据

此检查点（CodeGen-Multi 2B）首先使用CodeGen-NL 2B进行初始化，然后在 BigQuery 上进行预训练，这是一个来自GitHub仓库的大规模多编程语言数据集。该数据包含1192亿个令牌，包括C、C++、Go、Java、JavaScript和Python。

训练过程

CodeGen使用交叉熵损失进行训练，以最大化顺序输入的可能性。这系列模型是使用Google的多个TPU-v4-512进行训练的，利用数据和模型的并行处理。有关详细信息，请参阅 paper 的第2.3节。

评估结果

我们在两个代码生成基准测试（HumanEval和MTPB）上对模型进行评估。更多详细信息请参阅 paper 。

预期用途和局限性

作为自回归语言模型，CodeGen能够从给定的自然语言和编程语言文本中提取特征，并计算它们的可能性。然而，该模型的预期用途是程序综合，即根据英文提示生成可执行的代码，其中提示应该是以注释字符串的形式。该模型也可以完成部分生成的代码。

如何使用

可以使用AutoModelForCausalLM功能轻松加载此模型:

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/codegen-2B-multi")
model = AutoModelForCausalLM.from_pretrained("Salesforce/codegen-2B-multi")

text = "def hello_world():"
input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=128)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

BibTeX引用和引文信息

@article{Nijkamp2022ACP,
  title={A Conversational Paradigm for Program Synthesis},
  author={Nijkamp, Erik and Pang, Bo and Hayashi, Hiroaki and Tu, Lifu and Wang, Huan and Zhou, Yingbo and Savarese, Silvio and Xiong, Caiming},
  journal={arXiv preprint},
  year={2022}
}

作者:

Salesforce

数据集大小:

5.31 GB