模型:
valhalla/distilbart-mnli-12-3
distilbart-mnli是BART大型mnli的蒸馏版本,采用Huggingface提出的“无教师蒸馏”技术用于BART摘要。 here
我们只需从bart-large-mnli中复制交替的层,并在相同的数据上进行微调。
matched acc | mismatched acc | |
---|---|---|
1235321 (baseline, 12-12) | 89.9 | 90.01 |
1236321 | 87.08 | 87.5 |
1237321 | 88.1 | 88.19 |
1238321 | 89.19 | 89.01 |
1239321 | 89.56 | 89.52 |
这是一种非常简单且有效的技术,因为我们可以看到性能下降非常小。
详细的性能折衷将在此 sheet 中发布。
如果您想自己训练这些模型,请克隆 distillbart-mnli repo 并按照以下步骤进行操作
克隆并从源代码安装transformers
git clone https://github.com/huggingface/transformers.git pip install -qqq -U ./transformers
下载MNLI数据
python transformers/utils/download_glue_data.py --data_dir glue_data --tasks MNLI
创建学生模型
python create_student.py \ --teacher_model_name_or_path facebook/bart-large-mnli \ --student_encoder_layers 12 \ --student_decoder_layers 6 \ --save_path student-bart-mnli-12-6 \
开始微调
python run_glue.py args.json
您可以在此 wandb project 中找到这些训练模型的日志。