模型:
microsoft/deberta-base-mnli
DeBERTa 使用分解注意力和增强的遮罩解码器来改进BERT和RoBERTa模型。在使用80GB训练数据的大多数NLU任务上,它的表现优于BERT和RoBERTa。
请查看 official repository 获取更多详细信息和更新。
这个模型是基于DeBERTa模型经过MNLI任务微调的基本模型。
在NLU任务上进行微调我们在SQuAD 1.1/2.0和MNLI任务上呈现了开发结果。
Model | SQuAD 1.1 | SQuAD 2.0 | MNLI-m |
---|---|---|---|
RoBERTa-base | 91.5/84.6 | 83.7/80.5 | 87.6 |
XLNet-Large | -/- | -/80.2 | 86.8 |
DeBERTa-base | 93.1/87.2 | 86.2/83.1 | 88.8 |
如果您认为DeBERTa对您的工作有用,请引用以下论文:
@inproceedings{ he2021deberta, title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION}, author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen}, booktitle={International Conference on Learning Representations}, year={2021}, url={https://openreview.net/forum?id=XPZIaotutsD} }