模型:
microsoft/unixcoder-base
UniXcoder 是一个统一的跨模态预训练模型,利用多模态数据(即代码注释和AST)进行代码表示预训练。
特征工程
需要更多信息
需要更多信息
大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。模型生成的预测结果可能包含对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。
用户(直接和下游使用方)应意识到该模型的风险、偏见和限制。需要更多信息以提供进一步的建议。
需要更多信息
需要更多信息
需要更多信息
需要更多信息
模型创建者在 associated paper 中注意到:
UniXcoder 在代码摘要和生成任务的BLEU-4分数上略有下降。主要原因可能来自两个方面。一方面是预训练数据中的自然语言-编程语言对的数量
模型创建者在 associated paper 中注意到:
我们在九个公共数据集上对UniXcoder进行了五个任务的评估,包括两个理解任务、两个生成任务和一个自回归任务。为了进一步评估代码片段嵌入的性能,我们还提出了一个名为"零样本代码到代码搜索"的新任务。
模型创建者在 associated paper 中注意到:
以"零样本代码到代码搜索"任务为例,移除对比学习后,性能从20.45%下降到13.73%。
需要更多信息
可以使用 Machine Learning Impact calculator 中介绍的 Lacoste et al. (2019) 来估计碳排放量。
需要更多信息
需要更多信息
需要更多信息
需要更多信息
BibTeX:
@misc{https://doi.org/10.48550/arxiv.2203.03850, doi = {10.48550/ARXIV.2203.03850}, url = {https://arxiv.org/abs/2203.03850}, author = {Guo, Daya and Lu, Shuai and Duan, Nan and Wang, Yanlin and Zhou, Ming and Yin, Jian}, keywords = {Computation and Language (cs.CL), Programming Languages (cs.PL), Software Engineering (cs.SE), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {UniXcoder: Unified Cross-Modal Pre-training for Code
需要更多信息
需要更多信息
Microsoft团队与Ezi Ozoani和Hugging Face团队合作。
需要更多信息
使用下面的代码来开始使用模型。
点击展开from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("microsoft/unixcoder-base") model = AutoModel.from_pretrained("microsoft/unixcoder-base")