模型:
microsoft/deberta-base
DeBERTa通过使用解耦注意力和增强的掩码解码器来改进BERT和RoBERTa模型。在使用80GB训练数据的大多数NLU任务上,它优于BERT和RoBERTa。
请查看官方仓库获取更多详细信息和更新。
在NLU任务上进行微调我们展示了在SQuAD 1.1/2.0和MNLI任务上的开发结果。
Model | SQuAD 1.1 | SQuAD 2.0 | MNLI-m |
---|---|---|---|
RoBERTa-base | 91.5/84.6 | 83.7/80.5 | 87.6 |
XLNet-Large | -/- | -/80.2 | 86.8 |
DeBERTa-base | 93.1/87.2 | 86.2/83.1 | 88.8 |
如果您觉得DeBERTa对您的工作有用,请引用以下论文:
@inproceedings{ he2021deberta, title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION}, author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen}, booktitle={International Conference on Learning Representations}, year={2021}, url={https://openreview.net/forum?id=XPZIaotutsD} }