模型:

microsoft/unixcoder-base

英文

UniXcoder-base 模型卡片

模型详情

模型描述

UniXcoder 是一个统一的跨模态预训练模型,利用多模态数据(即代码注释和AST)进行代码表示预训练。

  • 开发者:Microsoft团队
  • 共享者[可选]:Hugging Face
  • 模型类型:特征工程
  • 语言:en
  • 许可证:Apache-2.0
  • 相关模型:
    • 父模型:RoBERTa
  • 更多信息资源:

用途

直接使用

特征工程

下游使用[可选]

需要更多信息

超出范围的使用

需要更多信息

偏见、风险和限制

大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。模型生成的预测结果可能包含对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。

建议

用户(直接和下游使用方)应意识到该模型的风险、偏见和限制。需要更多信息以提供进一步的建议。

训练细节

训练数据

需要更多信息

训练过程

预处理

需要更多信息

速度、大小和时间

需要更多信息

评估

测试数据、因素和指标

测试数据

需要更多信息

因素

模型创建者在 associated paper 中注意到:

UniXcoder 在代码摘要和生成任务的BLEU-4分数上略有下降。主要原因可能来自两个方面。一方面是预训练数据中的自然语言-编程语言对的数量

指标

模型创建者在 associated paper 中注意到:

我们在九个公共数据集上对UniXcoder进行了五个任务的评估,包括两个理解任务、两个生成任务和一个自回归任务。为了进一步评估代码片段嵌入的性能,我们还提出了一个名为"零样本代码到代码搜索"的新任务。

结果

模型创建者在 associated paper 中注意到:

以"零样本代码到代码搜索"任务为例,移除对比学习后,性能从20.45%下降到13.73%。

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 中介绍的 Lacoste et al. (2019) 来估计碳排放量。

  • 硬件类型:需要更多信息
  • 使用小时:需要更多信息
  • 云服务提供商:需要更多信息
  • 计算区域:需要更多信息
  • 排放的碳量:需要更多信息

技术规格[可选]

模型架构和目标

需要更多信息

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX:

@misc{https://doi.org/10.48550/arxiv.2203.03850,
 doi = {10.48550/ARXIV.2203.03850},
 
 url = {https://arxiv.org/abs/2203.03850},
 
 author = {Guo, Daya and Lu, Shuai and Duan, Nan and Wang, Yanlin and Zhou, Ming and Yin, Jian},
 
 keywords = {Computation and Language (cs.CL), Programming Languages (cs.PL), Software Engineering (cs.SE), FOS: Computer and information sciences, FOS: Computer and information sciences},
 
 title = {UniXcoder: Unified Cross-Modal Pre-training for Code 

词汇表[可选]

需要更多信息

更多信息[可选]

需要更多信息

模型卡片作者[可选]

Microsoft团队与Ezi Ozoani和Hugging Face团队合作。

模型卡片联系方式

需要更多信息

如何开始使用模型

使用下面的代码来开始使用模型。

点击展开
from transformers import AutoTokenizer, AutoModel
 
tokenizer = AutoTokenizer.from_pretrained("microsoft/unixcoder-base")
 
model = AutoModel.from_pretrained("microsoft/unixcoder-base")