模型:
google/bert_uncased_L-6_H-768_A-12
这是在 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models 中提到的24个 BERT 模型的集合(仅限英文,不区分大小写,使用 WordPiece 掩码进行训练)。
我们已经证明了标准的 BERT 配方(包括模型架构和训练目标)在各种不同的模型规模上都有效,超出了 BERT-Base 和 BERT-Large。较小的 BERT 模型适用于计算资源有限的环境。它们可以像原始的 BERT 模型一样进行微调。然而,它们在知识蒸馏的上下文中最为有效,其中微调标签是由更大且更准确的教师模型产生的。
我们的目标是在计算资源较少的机构中促进研究,并鼓励社区寻求创新方向,而不是仅仅增加模型容量。
您可以从以下链接下载24个 BERT 迷你模型,分别来自 official BERT Github page 和 HuggingFace:
H=128 | H=256 | H=512 | H=768 | |
---|---|---|---|---|
L=2 | 1233321 | 1234321 | 1235321 | 1236321 |
L=4 | 1237321 | 1238321 | 1239321 | 12310321 |
L=6 | 12311321 | 12312321 | 12313321 | 12314321 |
L=8 | 12315321 | 12316321 | 12317321 | 12318321 |
L=10 | 12319321 | 12320321 | 12321321 | 12322321 |
L=12 | 12323321 | 12324321 | 12325321 | 12326321 |
请注意,此版本中的 BERT-Base 模型仅作为完整性的说明,并且是在与原始模型相同的条件下重新训练的。
以下是在测试集上的对应 GLUE 分数:
Model | Score | CoLA | SST-2 | MRPC | STS-B | QQP | MNLI-m | MNLI-mm | QNLI(v2) | RTE | WNLI | AX |
---|---|---|---|---|---|---|---|---|---|---|---|---|
BERT-Tiny | 64.2 | 0.0 | 83.2 | 81.1/71.1 | 74.3/73.6 | 62.2/83.4 | 70.2 | 70.3 | 81.5 | 57.2 | 62.3 | 21.0 |
BERT-Mini | 65.8 | 0.0 | 85.9 | 81.1/71.8 | 75.4/73.3 | 66.4/86.2 | 74.8 | 74.3 | 84.1 | 57.9 | 62.3 | 26.1 |
BERT-Small | 71.2 | 27.8 | 89.7 | 83.4/76.2 | 78.8/77.0 | 68.1/87.0 | 77.6 | 77.0 | 86.4 | 61.8 | 62.3 | 28.6 |
BERT-Medium | 73.5 | 38.0 | 89.6 | 86.6/81.6 | 80.4/78.4 | 69.6/87.9 | 80.0 | 79.1 | 87.7 | 62.2 | 62.3 | 30.5 |
对于每个任务,我们从下面的列表中选择了最佳微调超参数,并进行了4个时期的训练:
如果您使用了这些模型,请引用以下论文:
@article{turc2019, title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models}, author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina}, journal={arXiv preprint arXiv:1908.08962v2 }, year={2019} }