模型:

microsoft/MiniLM-L12-H384-uncased

英文

MiniLM:小巧快速的预训练语言理解和生成模型

MiniLM是从论文" MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers "中精简出来的模型。

请在 original MiniLM repository 中找到关于预处理、训练和MiniLM的详细信息。

请注意:在使用之前,此检查点可以替代BERT并进行微调!

英文预训练模型

我们推出了从内部预训练UniLM v2模型(BERT-Base尺寸)中提炼出来的uncased 12层模型,隐藏大小为384。

  • MiniLMv1-L12-H384-uncased:12层,384个隐藏层单元,12个注意头,33M参数,比BERT-Base快2.7倍
在自然语言理解任务上的微调

我们在SQuAD 2.0和几个GLUE基准任务上呈现了开发结果。

Model #Param SQuAD 2.0 MNLI-m SST-2 QNLI CoLA RTE MRPC QQP
1233321 109M 76.8 84.5 93.2 91.7 58.9 68.6 87.3 91.3
MiniLM-L12xH384 33M 81.7 85.7 93.0 91.5 58.5 73.3 89.5 91.3

引用

如果您在研究中发现MiniLM有用,请引用以下论文:

@misc{wang2020minilm,
    title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers},
    author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou},
    year={2020},
    eprint={2002.10957},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}