英文

xlm-clm-ende-1024

目录

  • 模型详情
  • 使用
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用模型
  • 模型详情

    XLM模型是由Guillaume Lample、Alexis Conneau于 Cross-lingual Language Model Pretraining 提出的,xlm-clm-ende-1024是使用英德语进行因果语言建模(CLM)目标(下一个标记预测)进行预训练的转换器。

    模型描述

    使用

    直接使用

    该模型是一个语言模型,可以用于因果语言建模。

    下游使用

    有关此任务和潜在的下游用途的更多信息,请参见 Hugging Face Multilingual Models for Inference 文档。

    超范围使用

    该模型不应用于有意创造对人们具有敌对或疏远效果的环境。

    偏见、风险和限制

    已经进行了大量的研究来探索语言模型的偏见和公平性问题(例如 Sheng et al. (2021) Bender et al. (2021) )。

    建议

    用户(直接和下游)应了解模型的风险、偏见和限制。

    训练

    有关训练数据和训练过程的详细信息,请参见 associated paper

    评估

    测试数据、因素和指标

    有关测试数据、因素和指标的详细信息,请参见 associated paper

    结果

    xlm-clm-ende-1024的结果,请参见 associated paper 的表2。

    环境影响

    可以使用 Machine Learning Impact calculator 中提出的方法来估计碳排放量,具体请参见 Lacoste et al. (2019)

    • 硬件类型:需要更多信息
    • 使用时间:需要更多信息
    • 云供应商:需要更多信息
    • 计算区域:需要更多信息
    • 排放碳量:需要更多信息

    技术规格

    模型开发人员编写:

    我们使用PyTorch(Paszke et al., 2017)实现所有模型,并在64个Volta GPU上进行语言建模任务的训练,以及在8个GPU上进行MT任务的训练。我们使用float16操作加速训练并减少模型的内存使用。

    有关详细信息,请参见 associated paper

    引用

    BibTeX:

    @article{lample2019cross,
      title={Cross-lingual language model pretraining},
      author={Lample, Guillaume and Conneau, Alexis},
      journal={arXiv preprint arXiv:1901.07291},
      year={2019}
    }
    

    APA:

    • Lample, G., & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.

    模型卡片作者

    本模型卡片由Hugging Face团队编写。

    如何开始使用模型

    使用以下代码开始使用模型。

    点击展开
    import torch
    from transformers import XLMTokenizer, XLMWithLMHeadModel
    
    tokenizer = XLMTokenizer.from_pretrained("xlm-clm-ende-1024")
    model = XLMWithLMHeadModel.from_pretrained("xlm-clm-ende-1024")
    
    input_ids = torch.tensor([tokenizer.encode("Wikipedia was used to")])  # batch size of 1
    
    language_id = tokenizer.lang2id["en"]  # 0
    langs = torch.tensor([language_id] * input_ids.shape[1])  # torch.tensor([0, 0, 0, ..., 0])
    
    # We reshape it to be of size (batch_size, sequence_length)
    langs = langs.view(1, -1)  # is now of shape [1, sequence_length] (we have a batch size of 1)
    
    outputs = model(input_ids, langs=langs)