英文

DistilBERT预训练模型(小写)

目录

  • 模型详情
  • 如何开始使用该模型
  • 用途
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响

模型详情

模型描述:这是在MNLI(多种文体自然语言推理)数据集上针对零-shot分类任务微调后的模型。

如何开始使用该模型

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli")

model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")

用途

该模型可用于文本分类任务。

风险、限制和偏见

内容警告:读者应注意,本部分包含令人不安、冒犯,以及可能持续历史和现行刻板印象的内容。

大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。

训练

训练数据

DistilBERT-uncased模型在多种文体自然语言推理 (MultiNLI) 语料库上进行了预训练。该语料库是一个由43.3万个句子对组成的众包数据集,带有文本蕴含信息。该语料库涵盖了口头和书面文本的各种文体,并支持独特的跨文体泛化评估。

此模型也不区分大小写,即不区分“english”和“English”。

训练过程

训练在一台AWS EC2上进行,使用以下超参数:

$ run_glue.py \
    --model_name_or_path distilbert-base-uncased \
    --task_name mnli \
    --do_train \
    --do_eval \
    --max_seq_length 128 \
    --per_device_train_batch_size 16 \
    --learning_rate 2e-5 \
    --num_train_epochs 5 \
    --output_dir /tmp/distilbert-base-uncased_mnli/

评估

评估结果

当在下游任务上进行微调时,该模型实现了以下结果:

  • **Epoch = ** 5.0
  • 评估准确率 = 0.8206875508543532
  • 评估损失 = 0.8706700205802917
  • **评估运行时间 = **17.8278
  • **每秒评估样本数 = **551.498

MNLI和MNLI-mm结果:

Task MNLI MNLI-mm
82.0 82.0

环境影响

可以使用 Machine Learning Impact calculator 中提出的方法估计碳排放量。我们根据 associated paper 提供的硬件类型来表示。

硬件类型:1个NVIDIA Tesla V100 GPU

使用小时数:未知

云服务提供商:AWS EC2 P3

计算地区:未知

排放的碳量:(功耗 x 时间 x 基于电力网位置产生的碳排放):未知