英文

NLLB-200

这是NLLB-200的蒸馏1.3B变体的模型卡片。

这是那个特定检查点的 metrics

  • 关于训练算法、参数、公平约束或其他应用方法和特征的信息。有关用于训练NLLB-200的确切训练算法、数据以及处理高资源语言和低资源语言数据不平衡策略的描述可在论文中找到。
  • 更多信息的论文或其他资源:NLLB团队等,No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022。
  • 许可证:CC-BY-NC
  • 如何发送问题或评论模型的地方: https://github.com/facebookresearch/fairseq/issues

预期用途

  • 主要预期用途:NLLB-200是一个机器翻译模型,主要用于机器翻译的研究,特别是用于低资源语言。如何使用模型的信息可以在Fairseq代码存储库中找到,包括训练代码以及评估和训练数据的参考。
  • 主要预期用户:主要用户是研究人员和机器翻译研究社区。
  • 不在范围内的用例:NLLB-200是一个研究模型,不适用于生产部署。NLLB-200是使用一般领域的文本数据进行训练的,并不适用于特定领域的文本,如医学领域或法律领域。该模型不适用于文档翻译。该模型是使用不超过512个标记的输入长度进行训练的,因此翻译较长的序列可能会导致质量下降。NLLB-200的翻译不能用作认证翻译。

指标

• 模型性能指标:NLLB-200模型的评估采用了机器翻译社区广泛采用的BLEU、spBLEU和chrF++指标。此外,我们还采用了XSTS协议进行人工评估,并测量了生成翻译的有害性。

评估数据

  • 数据集:Flores-200数据集在第4节中有描述。
  • 动机:我们使用Flores-200数据集,因为它提供了对NLLB-200中语言的全面评估覆盖。
  • 预处理:使用SentencePiece对句子拆分的原始文本数据进行预处理。SentencePiece模型与NLLB-200一起发布。

训练数据

• 我们使用来自各种来源的平行多语言数据来训练模型。有关数据选择和构建过程的详细报告,请参阅论文中的第5节。我们还使用从Common Crawl构建的单语数据。有关更多细节,请参阅第5.2节。

伦理考虑

• 在这项工作中,我们采取了一种反思性的技术发展方法,以确保我们优先考虑人类用户,并将可能转移到他们身上的风险最小化。虽然我们在整篇文章中都反思了我们的伦理考虑,但以下是一些要强调的额外观点。首先,本研究选择的许多语言属于低资源语言,特别强调非洲语言。虽然质量翻译可以改善这些社区的教育和信息获取,但这种访问也可能使数字素养水平较低的群体更容易受到信息误导或网络诈骗的伤害。后一种情况可能发生,如果恶意用户将我们的工作用于不正当活动中,我们认为这是一种意外使用的例子。关于数据获取,用于模型开发的训练数据是从互联网上各种公开可用的来源中获取的。尽管我们在数据清理方面投入了大量精力,但个人身份信息可能无法完全消除。最后,尽管我们已经尽力优化翻译质量,但模型产生的误译可能仍然存在。尽管可能性很低,但这可能对那些依赖这些翻译做重要决策(特别是涉及健康和安全的决策)的人产生不利影响。

注意事项和建议

• 我们的模型已在维基媒体领域进行了测试,并在NLLB-MD中支持其他领域的有限调查。此外,支持的语言可能存在我们的模型未能捕捉到的变化。用户应进行适当的评估。

碳足迹细节

• 二氧化碳(CO2e)估计报告见第8.8节。