模型描述:这是在MNLI(多种文体自然语言推理)数据集上针对零-shot分类任务微调后的模型。
from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("typeform/distilbert-base-uncased-mnli") model = AutoModelForSequenceClassification.from_pretrained("typeform/distilbert-base-uncased-mnli")
该模型可用于文本分类任务。
内容警告:读者应注意,本部分包含令人不安、冒犯,以及可能持续历史和现行刻板印象的内容。
大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
DistilBERT-uncased模型在多种文体自然语言推理 (MultiNLI) 语料库上进行了预训练。该语料库是一个由43.3万个句子对组成的众包数据集,带有文本蕴含信息。该语料库涵盖了口头和书面文本的各种文体,并支持独特的跨文体泛化评估。
此模型也不区分大小写,即不区分“english”和“English”。
训练过程训练在一台AWS EC2上进行,使用以下超参数:
$ run_glue.py \ --model_name_or_path distilbert-base-uncased \ --task_name mnli \ --do_train \ --do_eval \ --max_seq_length 128 \ --per_device_train_batch_size 16 \ --learning_rate 2e-5 \ --num_train_epochs 5 \ --output_dir /tmp/distilbert-base-uncased_mnli/
当在下游任务上进行微调时,该模型实现了以下结果:
MNLI和MNLI-mm结果:
Task | MNLI | MNLI-mm |
---|---|---|
82.0 | 82.0 |
可以使用 Machine Learning Impact calculator 中提出的方法估计碳排放量。我们根据 associated paper 提供的硬件类型来表示。
硬件类型:1个NVIDIA Tesla V100 GPU
使用小时数:未知
云服务提供商:AWS EC2 P3
计算地区:未知
排放的碳量:(功耗 x 时间 x 基于电力网位置产生的碳排放):未知