模型:

microsoft/deberta-base

英文

DeBERTa: 使用解耦注意力和增强掩码解码器的BERT模型

DeBERTa通过使用解耦注意力和增强的掩码解码器来改进BERT和RoBERTa模型。在使用80GB训练数据的大多数NLU任务上,它优于BERT和RoBERTa。

请查看官方仓库获取更多详细信息和更新。

在NLU任务上进行微调

我们展示了在SQuAD 1.1/2.0和MNLI任务上的开发结果。

Model SQuAD 1.1 SQuAD 2.0 MNLI-m
RoBERTa-base 91.5/84.6 83.7/80.5 87.6
XLNet-Large -/- -/80.2 86.8
DeBERTa-base 93.1/87.2 86.2/83.1 88.8

引用

如果您觉得DeBERTa对您的工作有用,请引用以下论文:

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}