microsoft/deberta-v3-small | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

microsoft/deberta-v3-small

任务:

填充掩码

类库:

PyTorch TensorFlow Transformers

语言:

其他:

deberta-v2 deberta deberta-v3

预印本库:

arxiv:2006.03654 arxiv:2111.09543

许可:

mit

模型介绍文件清单

英文

DeBERTaV3：使用ELECTRA-风格的预训练与梯度分离嵌入共享改进DeBERTa

DeBERTa 使用分离的注意力和增强的掩码解码器改进了BERT和RoBERTa模型。通过这两个改进，DeBERTa在大多数NLU任务上优于RoBERTa，使用80GB的训练数据。

在 DeBERTa V3 中，我们进一步改进了DeBERTa的效率，使用了ELECTRA-风格的预训练与梯度分离嵌入共享。与DeBERTa相比，我们的V3版本在下游任务上显著提高了模型性能。您可以从我们的 paper 中找到有关新模型的更多技术细节。

请查看 official repository 的更多实现细节和更新内容。

DeBERTa V3小模型具有6层和768的隐藏大小。它具有44M的骨干参数，并包含128K个标记的词汇表，在嵌入层中引入了98M参数。此模型是使用160GB的数据进行训练的，如DeBERTa V2。

在NLU任务上微调

我们在SQuAD 2.0和MNLI任务上提供了开发结果。

Model	Vocabulary(K)	Backbone #Params(M)	SQuAD 2.0(F1/EM)	MNLI-m/mm(ACC)
RoBERTa-base	50	86	83.7/80.5	87.6/-
XLNet-base	32	92	-/80.2	86.8/-
ELECTRA-base	30	86	-/80.5	88.8/
DeBERTa-base	50	100	86.2/83.1	88.8/88.5
DeBERTa-v3-large	128	304	91.5/89.0	91.8/91.9
DeBERTa-v3-base	128	86	88.4/85.4	90.6/90.7
DeBERTa-v3-small	128	44	82.8/80.4	88.3/87.7
DeBERTa-v3-small+SiFT	128	22	-/-	88.8/88.5

使用HF transformers进行微调

#!/bin/bash

cd transformers/examples/pytorch/text-classification/

pip install datasets
export TASK_NAME=mnli

output_dir="ds_results"

num_gpus=8

batch_size=8

python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
  run_glue.py \
  --model_name_or_path microsoft/deberta-v3-small \
  --task_name $TASK_NAME \
  --do_train \
  --do_eval \
  --evaluation_strategy steps \
  --max_seq_length 256 \
  --warmup_steps 1500 \
  --per_device_train_batch_size ${batch_size} \
  --learning_rate 4.5e-5 \
  --num_train_epochs 3 \
  --output_dir $output_dir \
  --overwrite_output_dir \
  --logging_steps 1000 \
  --logging_dir $output_dir

引用

如果您发现DeBERTa对您的工作有用，请引用以下论文：

@misc{he2021debertav3,
      title={DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing}, 
      author={Pengcheng He and Jianfeng Gao and Weizhu Chen},
      year={2021},
      eprint={2111.09543},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{
he2021deberta,
title={DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION},
author={Pengcheng He and Xiaodong Liu and Jianfeng Gao and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2021},
url={https://openreview.net/forum?id=XPZIaotutsD}
}

作者:

Microsoft

数据集大小:

814.33 MB