模型:

bigcode/gpt_bigcode-santacoder

任务:

文本生成

类库:

PyTorch Safetensors Transformers

数据集:

bigcode/the-stack 3Abigcode/the-stack

语言:

code

其他:

gpt_bigcode Eval Results text-generation-inference

许可:

openrail

模型介绍文件清单

英文

SantaCoder

在 SantaCoder Space Demo 上玩耍模型。

模型摘要

这个模型与 SantaCoder 相同，但可以使用transformers >= 4.28.1加载以使用GPTBigCode架构。关于此模型的全部文档，请参阅 SantaCoder model page 。

存储库： bigcode/Megatron-LM
项目网站： bigcode-project.org
论文： 🎅SantaCoder: Don't reach for the stars!🌟
联系人： contact@bigcode-project.org
语言： Python，Java和JavaScript

模型有两个版本（分支）：

主要：使用gpt_bigcode模型。 Requires the bigcode fork of transformers 。
main_custom：带有其建模代码的打包版本。需要 transformers > = 4.27 。或者，可以通过设置配置参数 activation_function = "gelu_pytorch_tanh" 在旧版本上运行。

用途

打算使用

该模型是在GitHub代码上进行训练的。因此，它不是一个指令模型，诸如“编写一个计算平方根的函数”的命令效果不好。您应该用源代码中出现的方式来表达命令，例如评论（例如#以下函数计算sqrt）或编写函数签名和文档字符串，然后让模型完成函数主体。

归属和其他要求

模型的预训练数据集已根据宽松的许可证进行了过滤。尽管如此，该模型可以直接从数据集生成源代码。代码的许可证可能需要归属及/或其他特定要求，必须予以尊重。我们提供了一个 search index ，让您可以搜索预训练数据并确定生成的代码来自于何处，并为您的代码应用适当的归属。

限制

该模型是使用Python、Java和JavaScript的源代码进行训练的。源代码中的主要语言是英语，尽管还存在其他语言。因此，该模型能够根据一定的上下文生成代码片段，但不能保证生成的代码能够正常工作。它可能是低效的，包含错误或漏洞。

训练

模型

架构：GPT-2 模型，具有多查询注意和填充中间目标
预训练步骤：600K
预训练标记：2360亿
精度：float16

硬件

GPU：96颗 Tesla V100
训练时间：6.2天
总 FLOPS：2.1 x 10e21

软件

编排： Megatron-LM
神经网络： PyTorch
如果适用，使用FP16： apex

许可证

该模型使用的是CodeML Open RAIL-M v0.1许可证。您可以在 here 找到完整的许可证。

作者:

BigCode

数据集大小:

4.19 GB

SantaCoder

目录

模型摘要

用途

打算使用

归属和其他要求

限制

训练

模型

硬件

软件

许可证