模型:

xlm-clm-ende-1024

任务:

填充掩码

类库:

PyTorch TensorFlow Safetensors Transformers

语言:

multilingual

其他:

xlm AutoTrain Compatible

预印本库:

arxiv:1901.07291 arxiv:1910.09700

模型介绍文件清单

英文

xlm-clm-ende-1024

模型详情

XLM模型是由Guillaume Lample、Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的，xlm-clm-ende-1024是使用英德语进行因果语言建模（CLM）目标（下一个标记预测）进行预训练的转换器。

模型描述

开发者：Guillaume Lample、Alexis Conneau，详情请参见 associated paper
模型类型：语言模型
语言（NLP）：英德语
许可证：未知
相关模型： xlm-clm-enfr-1024 、 xlm-mlm-ende-1024 、 xlm-mlm-enfr-1024 、 xlm-mlm-enro-1024
获取更多信息的资源：

使用

直接使用

该模型是一个语言模型，可以用于因果语言建模。

下游使用

有关此任务和潜在的下游用途的更多信息，请参见 Hugging Face Multilingual Models for Inference 文档。

超范围使用

该模型不应用于有意创造对人们具有敌对或疏远效果的环境。

偏见、风险和限制

已经进行了大量的研究来探索语言模型的偏见和公平性问题（例如 Sheng et al. (2021) 和 Bender et al. (2021) ）。

建议

用户（直接和下游）应了解模型的风险、偏见和限制。

训练

有关训练数据和训练过程的详细信息，请参见 associated paper 。

评估

测试数据、因素和指标

有关测试数据、因素和指标的详细信息，请参见 associated paper 。

结果

xlm-clm-ende-1024的结果，请参见 associated paper 的表2。

环境影响

可以使用 Machine Learning Impact calculator 中提出的方法来估计碳排放量，具体请参见 Lacoste et al. (2019) 。

硬件类型：需要更多信息
使用时间：需要更多信息
云供应商：需要更多信息
计算区域：需要更多信息
排放碳量：需要更多信息

技术规格

模型开发人员编写：

我们使用PyTorch（Paszke et al., 2017）实现所有模型，并在64个Volta GPU上进行语言建模任务的训练，以及在8个GPU上进行MT任务的训练。我们使用float16操作加速训练并减少模型的内存使用。

有关详细信息，请参见 associated paper 。

引用

BibTeX：

@article{lample2019cross,
  title={Cross-lingual language model pretraining},
  author={Lample, Guillaume and Conneau, Alexis},
  journal={arXiv preprint arXiv:1901.07291},
  year={2019}
}

APA：

Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

模型卡片作者

本模型卡片由Hugging Face团队编写。

如何开始使用模型

使用以下代码开始使用模型。

点击展开

import torch
from transformers import XLMTokenizer, XLMWithLMHeadModel

tokenizer = XLMTokenizer.from_pretrained("xlm-clm-ende-1024")
model = XLMWithLMHeadModel.from_pretrained("xlm-clm-ende-1024")

input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])  # batch size of 1

language_id = tokenizer.lang2id["en"]  # 0
langs = torch.tensor([language_id] * input_ids.shape[1])  # torch.tensor([0, 0, 0, ..., 0])

# We reshape it to be of size (batch_size, sequence_length)
langs = langs.view(1, -1)  # is now of shape [1, sequence_length] (we have a batch size of 1)

outputs = model(input_ids, langs=langs)

作者:

None

数据集大小:

2.33 GB

xlm-clm-ende-1024

目录

模型详情

模型描述

使用

直接使用

下游使用

超范围使用

偏见、风险和限制

建议

训练

评估

测试数据、因素和指标

结果

环境影响

技术规格

引用

模型卡片作者

如何开始使用模型