模型:
roberta-large-mnli
模型描述:roberta-large-mnli是在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了精调的 RoBERTa large model 模型。该模型是在英语文本上使用掩码语言建模(MLM)目标进行预训练的。
使用以下代码开始使用该模型。可以使用zero-shot-classification pipeline加载模型,如下所示:
from transformers import pipeline classifier = pipeline('zero-shot-classification', model='roberta-large-mnli')
然后,您可以使用该pipeline对序列进行分类,可以指定任何类名。例如:
sequence_to_classify = "one day I will see the world" candidate_labels = ['travel', 'cooking', 'dancing'] classifier(sequence_to_classify, candidate_labels)
该精调模型可用于零样本分类任务,包括零样本句对分类(请参阅 GitHub repo 获取示例)和零样本序列分类。
不当使用和超范围使用该模型不应被用于故意创造敌对或疏远人的环境。此外,该模型的训练目标不是为了成为关于人或事件事实或真实的代表,因此使用该模型生成此类内容超出了该模型的能力范围。
内容警告:读者应注意,本节内容包含令人不安、冒犯性和可能传播历史和现实偏见的内容。
已进行大量研究以探讨语言模型的偏见和公平性问题(参见 Sheng et al. (2021) 和 Bender et al. (2021) 等)。 RoBERTa large model card 指出:“用于该模型的训练数据包含很多来自互联网的非过滤内容,远非中立。”
该模型生成的预测可能包含针对受保护类别、身份特征和敏感的社会和职业群体的令人不安和有害的刻板印象。例如:
sequence_to_classify = "The CEO had a strong handshake." candidate_labels = ['male', 'female'] hypothesis_template = "This text speaks about a {} profession." classifier(sequence_to_classify, candidate_labels, hypothesis_template=hypothesis_template)
用户(包括直接和下游用户)应意识到该模型的风险、偏见和限制。
该模型是在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了精调。更多信息请参见 MNLI data card 。
如 RoBERTa large model card 所述:
RoBERTa模型的预训练采用了五个数据集的结合:
这些数据集总共包含160GB的文本。
更多信息,请参见 bookcorpus data card 和 wikipedia data card 。
训练过程预处理如 RoBERTa large model card 所述:
文本使用基于字节的一种Byte-Pair Encoding(BPE)进行标记化,并使用50,000个词汇量。模型的输入采用512个连续令牌的片段,可以跨越多个文档。新文档的开头用标记,结尾用标记
每个句子的屏蔽过程的详细信息如下:
与BERT不同,屏蔽过程是在预训练期间动态进行的(例如,它在每个时期都会发生变化,而不是固定的)。
预训练如 RoBERTa large model card 所述:
该模型在1024个V100 GPU上训练了500K个步骤,批次大小为8K,序列长度为512。使用的优化器是Adam,学习率为4e-4,β1 = 0.9,β2 = 0.98,ε = 1e-6,权重衰减为0.01,学习率预热步骤数为30,000,学习率线性衰减。
以下评估信息从相关的 GitHub repo for RoBERTa 中提取。
测试数据、因素和指标模型开发者报告,该模型在以下任务和数据集上进行了评估,并使用列出的指标:
数据集: GLUE (Wang et al., 2019) 的一部分,通用语言理解评估基准,这是一组用于评估自然语言理解系统的9个数据集。具体而言,模型在 Multi-Genre Natural Language Inference (MNLI) 语料库上进行了评估。有关详细信息,请参见 GLUE data card 或 Wang et al. (2019) 。
《多源流体的自然语言推理语料库》(Multi-Genre Natural Language Inference Corpus) (Williams et al., 2018) 是一组众包标记的句子对,带有文本蕴含注释。给定一个前提句子和一个假设句子,任务是预测前提是否蕴含假设(entailment),否定假设(contradiction),或者都不是(neutral)。前提句子来自十个不同的来源,包括转录的演讲、小说和政府报告。我们使用了标准测试集,并从作者处获得了私有标签,并在匹配(领域内)和不匹配(跨领域)两个部分上进行评估。我们还使用并推荐SNLI语料库 (Bowman et al., 2015) 作为55万个辅助训练数据示例。
数据集: XNLI (Conneau et al., 2018) ,将 Multi-Genre Natural Language Inference (MNLI) 语料库扩展到15种语言:英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语。有关详细信息,请参见 XNLI data card 或 Conneau et al. (2018) 。
GLUE测试结果(开发集,单模型,单一任务微调):MNLI准确率为90.2
XNLI测试结果:
Task | en | fr | es | de | el | bg | ru | tr | ar | vi | th | zh | hi | sw | ur |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
91.3 | 82.91 | 84.27 | 81.24 | 81.74 | 83.13 | 78.28 | 76.79 | 76.64 | 74.17 | 74.05 | 77.5 | 70.9 | 66.65 | 66.81 |
可以使用 Machine Learning Impact calculator 中介绍的方法估算碳排放量。我们根据 associated paper 提供的硬件类型和使用时间来计算。
有关模型架构、目标、计算基础设施和训练细节的详细信息,请参见 associated paper 。
@article{liu2019roberta, title = {RoBERTa: A Robustly Optimized BERT Pretraining Approach}, author = {Yinhan Liu and Myle Ott and Naman Goyal and Jingfei Du and Mandar Joshi and Danqi Chen and Omer Levy and Mike Lewis and Luke Zettlemoyer and Veselin Stoyanov}, journal={arXiv preprint arXiv:1907.11692}, year = {2019}, }