英文

NLLB-200

这是NLLB-200的1.3B变体的模型卡片。

这是该特定检查点的 metrics

  • 关于训练算法、参数、公平约束或其他应用方法和特征的信息。训练NLLB-200所使用的确切训练算法、数据以及处理高低资源语言数据不平衡的策略在论文中有描述。
  • 论文或其他资源以获取更多信息:NLLB团队等人,《无一语言被遗忘:扩展以人为中心的机器翻译》,Arxiv,2022年。
  • 许可证:CC-BY-NC
  • 有关模型的问题或评论请发送至: https://github.com/facebookresearch/fairseq/issues

预期用途

  • 主要预期用途:NLLB-200是一个主要用于机器翻译研究的机器翻译模型,特别适用于低资源语言。有关如何使用该模型的信息可以在Fairseq代码存储库中找到,其中包括训练代码和对评估和训练数据的参考。
  • 主要预期用户:主要用户是研究人员和机器翻译研究社区。
  • 不在范围内的用例:NLLB-200是一个研究模型,不适用于生产部署。NLLB-200是使用通用领域文本数据训练的,不适用于特定领域文本,如医疗领域或法律领域。该模型不适用于文件翻译。该模型在输入长度不超过512个标记的情况下进行训练,因此翻译较长的序列可能导致质量下降。NLLB-200的翻译不能用作认证翻译。

指标

•模型性能指标:NLLB-200模型使用BLEU、spBLEU和chrF++等机器翻译社区广泛采用的指标进行评估。此外,我们还使用XSTS协议进行人工评估,并测量生成的翻译的毒性。

评估数据

  • 数据集:Flores-200数据集在第4节中有描述。
  • 动机:我们使用Flores-200数据集,因为它提供了NLLB-200中涵盖的语言的全面评估。
  • 预处理:原始文本数据经过句子分割和SentencePiece预处理。SentencePiece模型与NLLB-200一起发布。

训练数据

•我们使用了来自各种来源的平行多语言数据来训练模型。我们在论文中详细报告了数据选择和构建过程。我们还使用了从Common Crawl构建的单语数据。在第5.2节中提供了更多详细信息。

伦理考虑

•在这项工作中,我们采用了一种反思性的技术开发方法,以确保我们优先考虑人类用户并最小化可能转移给他们的风险。虽然我们在整篇文章中反思了我们的伦理考虑,但这里还有一些需要强调的额外观点。首先,许多选择进行研究的语言都是低资源语言,特别强调非洲语言。虽然质量翻译可以改善这些社区的教育和信息获取,但这种访问也可能使数字素养水平较低的群体更容易受到错误信息或在线欺诈的伤害。后一种情况可能发生在不良行为者将我们的工作用于恶意活动时,我们认为这是一种非预期的使用示例。关于数据获取,用于模型开发的训练数据是从互联网上的各种公开可用来源进行挖掘的。尽管我们在数据清洗方面投入了大量工作,但个人可识别信息可能并未完全消除。最后,尽管我们尽力优化翻译质量,但模型产生的误译可能仍然存在。尽管机会很少,但这可能对依赖这些翻译做出重要决策的人产生不利影响(尤其是与健康和安全相关的决策)。

注意事项和建议

•我们的模型在维基媒体领域进行了测试,对NLLB-MD中支持的其他领域进行了有限的调查。此外,支持的语言可能有我们的模型未捕捉到的变体。用户应进行适当评估。

碳足迹详细信息

•二氧化碳(CO2e)估计在第8.8节中报道。