模型:
xlm-roberta-base
XLM-RoBERTa模型是在包含100种语言的2.5TB已过滤的CommonCrawl数据上进行预训练的。它是由Conneau等人在论文《无监督跨语言表征学习规模化》中提出,并在这个代码库中首次发布的。
声明:发布XLM-RoBERTa的团队没有为该模型编写模型卡片,因此本模型卡片是由Hugging Face团队编写的。
XLM-RoBERTa是RoBERTa的多语言版本。它在包含100种语言的2.5TB已过滤的CommonCrawl数据上进行了预训练。
RoBERTa是一个在大型语料库上进行自我监督方式预训练的transformers模型。这意味着它只使用原始文本进行预训练,没有任何人为标注(这也是为什么它可以使用大量公开可用的数据),通过自动处理从这些文本中生成输入和标签。
更准确地说,它是通过遮盖语言建模(MLM)目标进行预训练的。对于一个句子,模型会随机遮盖输入中的15%的单词,然后将整个遮盖后的句子输入模型,并尝试预测那些遮盖的单词。这与传统的循环神经网络(RNNs)通常逐个处理单词的方式或GPT等自回归模型在内部遮盖未来标记的方式不同。这使得模型能够学习到句子的双向表示。
通过这种方式,模型学习到了100种语言的内部表示,可以用来提取对下游任务有用的特征:例如,如果你有一个带有标签的句子数据集,你可以使用XLM-RoBERTa模型生成的特征作为分类器的输入进行训练。
您可以使用原始模型进行遮盖语言建模,但它主要是用于在下游任务上进行微调。请查看模型中心以查找与您感兴趣的任务相对应的微调版本。
请注意,该模型主要用于在使用整个句子(可能被遮盖)进行决策的任务上进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应该查看类似GPT2的模型。
您可以使用此模型直接进行遮盖语言建模的流程:
>>> from transformers import pipeline >>> unmasker = pipeline('fill-mask', model='xlm-roberta-base') >>> unmasker("Hello I'm a <mask> model.") [{'score': 0.10563907772302628, 'sequence': "Hello I'm a fashion model.", 'token': 54543, 'token_str': 'fashion'}, {'score': 0.08015287667512894, 'sequence': "Hello I'm a new model.", 'token': 3525, 'token_str': 'new'}, {'score': 0.033413201570510864, 'sequence': "Hello I'm a model model.", 'token': 3299, 'token_str': 'model'}, {'score': 0.030217764899134636, 'sequence': "Hello I'm a French model.", 'token': 92265, 'token_str': 'French'}, {'score': 0.026436051353812218, 'sequence': "Hello I'm a sexy model.", 'token': 17473, 'token_str': 'sexy'}]
以下是如何使用此模型在PyTorch中获取给定文本的特征:
from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base') model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-base") # prepare input text = "Replace me by any text you'd like." encoded_input = tokenizer(text, return_tensors='pt') # forward pass output = model(**encoded_input)
@article{DBLP:journals/corr/abs-1911-02116, author = {Alexis Conneau and Kartikay Khandelwal and Naman Goyal and Vishrav Chaudhary and Guillaume Wenzek and Francisco Guzm{\'{a}}n and Edouard Grave and Myle Ott and Luke Zettlemoyer and Veselin Stoyanov}, title = {Unsupervised Cross-lingual Representation Learning at Scale}, journal = {CoRR}, volume = {abs/1911.02116}, year = {2019}, url = {http://arxiv.org/abs/1911.02116}, eprinttype = {arXiv}, eprint = {1911.02116}, timestamp = {Mon, 11 Nov 2019 18:38:09 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-1911-02116.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }