英文

SantaCoder

SantaCoder Space Demo 上玩耍模型。

目录

  • 模型摘要
  • 用途
  • 限制
  • 训练
  • 许可证
  • 引用
  • 模型摘要

    这个模型与 SantaCoder 相同,但可以使用transformers >= 4.28.1加载以使用GPTBigCode架构。关于此模型的全部文档,请参阅 SantaCoder model page

    模型有两个版本(分支):

    • 主要:使用gpt_bigcode模型。 Requires the bigcode fork of transformers
    • main_custom:带有其建模代码的打包版本。需要 transformers > = 4.27 。或者,可以通过设置配置参数 activation_function = "gelu_pytorch_tanh" 在旧版本上运行。

    用途

    打算使用

    该模型是在GitHub代码上进行训练的。因此,它不是一个指令模型,诸如“编写一个计算平方根的函数”的命令效果不好。您应该用源代码中出现的方式来表达命令,例如评论(例如#以下函数计算sqrt)或编写函数签名和文档字符串,然后让模型完成函数主体。

    归属和其他要求

    模型的预训练数据集已根据宽松的许可证进行了过滤。尽管如此,该模型可以直接从数据集生成源代码。代码的许可证可能需要归属及/或其他特定要求,必须予以尊重。我们提供了一个 search index ,让您可以搜索预训练数据并确定生成的代码来自于何处,并为您的代码应用适当的归属。

    限制

    该模型是使用Python、Java和JavaScript的源代码进行训练的。源代码中的主要语言是英语,尽管还存在其他语言。因此,该模型能够根据一定的上下文生成代码片段,但不能保证生成的代码能够正常工作。它可能是低效的,包含错误或漏洞。

    训练

    模型

    • 架构:GPT-2 模型,具有多查询注意和填充中间目标
    • 预训练步骤:600K
    • 预训练标记:2360亿
    • 精度:float16

    硬件

    • GPU:96颗 Tesla V100
    • 训练时间:6.2天
    • 总 FLOPS:2.1 x 10e21

    软件

    许可证

    该模型使用的是CodeML Open RAIL-M v0.1许可证。您可以在 here 找到完整的许可证。