模型:

microsoft/deberta-base-mnli

英文

DeBERTa: 使用分解注意力和增强遮罩解码器的BERT的改进

DeBERTa 使用分解注意力和增强的遮罩解码器来改进BERT和RoBERTa模型。在使用80GB训练数据的大多数NLU任务上,它的表现优于BERT和RoBERTa。

请查看 official repository 获取更多详细信息和更新。

这个模型是基于DeBERTa模型经过MNLI任务微调的基本模型。

在NLU任务上进行微调

我们在SQuAD 1.1/2.0和MNLI任务上呈现了开发结果。

Model SQuAD 1.1 SQuAD 2.0 MNLI-m
RoBERTa-base 91.5/84.6 83.7/80.5 87.6
XLNet-Large -/- -/80.2 86.8
DeBERTa-base 93.1/87.2 86.2/83.1 88.8

引用

如果您认为DeBERTa对您的工作有用,请引用以下论文:

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}