模型:
distilbert-base-multilingual-cased
这个模型是 BERT多语言基础模型 的简化版本。可以在 这里 找到简化过程的代码。该模型区分大小写:英文与English是不同的。
这个模型是在包含104种不同语言维基百科的连结上进行训练的,具体语言清单请参考 这里 。这个模型有6层、768维度和12个头部,共计134M个参数(与mBERT-base模型相比,其参数数量为177M)。平均而言,这个被称为DistilmBERT的模型速度是mBERT-base的两倍。
我们鼓励潜在的模型使用者查看 BERT多语言基础模型卡 以了解更多关于使用、限制和潜在偏见的信息。
您可以将原始模型用于遮蔽语言建模或下一个句子预测,但主要是用于在下游任务上进行微调。查看 模型中心 查找您感兴趣的任务上的微调版本。
请注意,该模型主要用于在使用整个句子(可能被遮蔽)进行决策的任务上进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应该查看像GPT2这样的模型。
该模型不应用于有意为人们创造敌对或疏远环境。该模型的训练目标不是成为人们或事件的真实和真实的表现,因此使用模型生成此类内容超出了该模型的能力范围。
长期以来,许多研究都探讨了语言模型的偏见和公平性问题(参见Sheng等人(2021年)和Bender等人(2021年))。模型生成的预测结果可能包含针对受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象。
用户(包括直接用户和下游用户)应该意识到模型的风险、偏见和限制。
模型开发者为DistilmBERT报告了以下准确度结果(请参阅 GitHub仓库 ):
以下是XNLI中6种可用语言的测试集结果。这些结果是在零-shot设置下计算的(在英语部分上进行了训练,并在目标语言部分上进行了评估):
Model | English | Spanish | Chinese | German | Arabic | Urdu |
---|---|---|---|---|---|---|
mBERT base cased (computed) | 82.1 | 74.6 | 69.1 | 72.3 | 66.4 | 58.5 |
mBERT base uncased (reported) | 81.4 | 74.3 | 63.8 | 70.5 | 62.1 | 58.3 |
DistilmBERT | 78.2 | 69.1 | 64.0 | 66.3 | 59.1 | 54.7 |
可以使用机器学习环境影响计算器(Machine Learning Impact calculator)来估算碳排放量,该计算器介绍在Lacoste等人(2019年)的论文中(链接)。
@article{Sanh2019DistilBERTAD, title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter}, author={Victor Sanh and Lysandre Debut and Julien Chaumond and Thomas Wolf}, journal={ArXiv}, year={2019}, volume={abs/1910.01108} }
APA格式引用
您可以使用带有遮蔽语言建模的管道直接使用模型:
>>> from transformers import pipeline >>> unmasker = pipeline('fill-mask', model='distilbert-base-multilingual-cased') >>> unmasker("Hello I'm a [MASK] model.") [{'score': 0.040800247341394424, 'sequence': "Hello I'm a virtual model.", 'token': 37859, 'token_str': 'virtual'}, {'score': 0.020015988498926163, 'sequence': "Hello I'm a big model.", 'token': 22185, 'token_str': 'big'}, {'score': 0.018680453300476074, 'sequence': "Hello I'm a Hello model.", 'token': 31178, 'token_str': 'Hello'}, {'score': 0.017396586015820503, 'sequence': "Hello I'm a model model.", 'token': 13192, 'token_str': 'model'}, {'score': 0.014229810796678066, 'sequence': "Hello I'm a perfect model.", 'token': 43477, 'token_str': 'perfect'}]