模型:

microsoft/unixcoder-base

任务:

特征提取

类库:

PyTorch Transformers

语言:

其他:

roberta

预印本库:

arxiv:2203.03850 arxiv:1910.09700

许可:

apache-2.0

模型介绍文件清单

英文

UniXcoder-base 模型卡片

模型详情

模型描述

UniXcoder 是一个统一的跨模态预训练模型，利用多模态数据（即代码注释和AST）进行代码表示预训练。

开发者：Microsoft团队
共享者[可选]：Hugging Face
模型类型：特征工程
语言：en
许可证：Apache-2.0
相关模型：
- 父模型：RoBERTa
更多信息资源：
- Associated Paper

用途

直接使用

特征工程

下游使用[可选]

需要更多信息

超出范围的使用

需要更多信息

偏见、风险和限制

大量研究探讨了语言模型的偏见和公平性问题（参见，例如， Sheng et al. (2021) 和 Bender et al. (2021) ）。模型生成的预测结果可能包含对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。

建议

用户（直接和下游使用方）应意识到该模型的风险、偏见和限制。需要更多信息以提供进一步的建议。

训练细节

训练数据

需要更多信息

训练过程

预处理

需要更多信息

速度、大小和时间

需要更多信息

评估

测试数据、因素和指标

测试数据

需要更多信息

因素

模型创建者在 associated paper 中注意到：

UniXcoder 在代码摘要和生成任务的BLEU-4分数上略有下降。主要原因可能来自两个方面。一方面是预训练数据中的自然语言-编程语言对的数量

指标

模型创建者在 associated paper 中注意到：

我们在九个公共数据集上对UniXcoder进行了五个任务的评估，包括两个理解任务、两个生成任务和一个自回归任务。为了进一步评估代码片段嵌入的性能，我们还提出了一个名为"零样本代码到代码搜索"的新任务。

结果

模型创建者在 associated paper 中注意到：

以"零样本代码到代码搜索"任务为例，移除对比学习后，性能从20.45%下降到13.73%。

模型检查

需要更多信息

环境影响

可以使用 Machine Learning Impact calculator 中介绍的 Lacoste et al. (2019) 来估计碳排放量。

硬件类型：需要更多信息
使用小时：需要更多信息
云服务提供商：需要更多信息
计算区域：需要更多信息
排放的碳量：需要更多信息

技术规格[可选]

模型架构和目标

需要更多信息

计算基础设施

需要更多信息

硬件

需要更多信息

软件

需要更多信息

引用

BibTeX：

@misc{https://doi.org/10.48550/arxiv.2203.03850,
 doi = {10.48550/ARXIV.2203.03850},
 
 url = {https://arxiv.org/abs/2203.03850},
 
 author = {Guo, Daya and Lu, Shuai and Duan, Nan and Wang, Yanlin and Zhou, Ming and Yin, Jian},
 
 keywords = {Computation and Language (cs.CL), Programming Languages (cs.PL), Software Engineering (cs.SE), FOS: Computer and information sciences, FOS: Computer and information sciences},
 
 title = {UniXcoder: Unified Cross-Modal Pre-training for Code

词汇表[可选]

需要更多信息

模型卡片作者[可选]

Microsoft团队与Ezi Ozoani和Hugging Face团队合作。

模型卡片联系方式

需要更多信息

如何开始使用模型

使用下面的代码来开始使用模型。

点击展开

from transformers import AutoTokenizer, AutoModel
 
tokenizer = AutoTokenizer.from_pretrained("microsoft/unixcoder-base")
 
model = AutoModel.from_pretrained("microsoft/unixcoder-base")

作者:

Microsoft

数据集大小:

481.8 MB

UniXcoder-base 模型卡片

模型详情

模型描述

用途

直接使用

下游使用[可选]

超出范围的使用

偏见、风险和限制

建议

训练细节

训练数据

训练过程

预处理

速度、大小和时间

评估

测试数据、因素和指标

测试数据

因素

指标

结果

模型检查

环境影响

技术规格[可选]

模型架构和目标

计算基础设施

硬件

软件

引用

词汇表[可选]

更多信息[可选]

模型卡片作者[可选]

模型卡片联系方式

如何开始使用模型