英文

NLLB-200

这是 NLLB-200 的压缩 600M 变体的模型卡。

这是特定检查点的 metrics 信息。

  • 关于训练算法、参数、公平约束或其他应用方法和功能的信息。训练 NLLB-200 的具体训练算法、数据以及处理高低资源语言数据不平衡的策略在论文中有详细描述。
  • 有关更多信息的论文或其他资源:NLLB 团队等,《No Language Left Behind: Scaling Human-Centered Machine Translation》,Arxiv,2022年。
  • 许可证:CC-BY-NC。
  • 有关模型的问题或评论的发送地址: https://github.com/facebookresearch/fairseq/issues

使用目的

  • 主要用途:NLLB-200 是一个机器翻译模型,主要用于机器翻译的研究,尤其是用于低资源语言。使用该模型的方法可以在 Fairseq 代码库中找到,并包括训练代码、评估和训练数据的参考。
  • 主要用户:主要用户是研究人员和机器翻译研究社区。
  • 超出范围的用例:NLLB-200 是研究模型,不适用于生产部署。NLLB-200 是使用通用领域文本数据进行训练的,不适用于特定领域的文本,如医学领域或法律领域。该模型不适用于文件翻译。该模型的输入长度不超过512个标记,因此翻译更长的序列可能会导致质量下降。NLLB-200 的翻译不能用作认证翻译。

指标

• 模型性能指标:NLLB-200 模型使用 BLEU、spBLEU 和 chrF++ 等被机器翻译社区广泛采用的指标进行评估。此外,我们还使用了 XSTS 协议进行人工评估,并测量了生成翻译的毒性。

评估数据

  • 数据集:Flores-200 数据集在第4节中有描述。
  • 动机:我们使用 Flores-200 数据集是因为它对 NLLB-200 中的语言提供了完整的评估覆盖。
  • 预处理:使用 SentencePiece 对句子拆分的原始文本数据进行预处理。SentencePiece 模型与 NLLB-200 一起发布。

训练数据

• 我们使用了来自各种来源的平行多语言数据来训练模型。有关数据选择和构建过程的详细报告见论文第5节。我们还使用了从 Common Crawl 构建的单语数据。更多细节请参见第5.2节。

道德考虑

• 在这项工作中,我们采取了一种反思的技术开发方法,以确保我们优先考虑人类用户,并减少可能转移到他们身上的风险。虽然我们在整篇文章中反思了道德考虑,但以下是一些需要强调的附加要点。首先,我们选择研究的许多语言都是低资源语言,特别注重非洲语言。虽然优质的翻译可以改善这些社区中的教育和信息获取,但这种访问也可能使具有较低数字素养水平的群体更容易受到错误信息或网络诈骗的影响。后一种情况可能发生在恶意行为者将我们的工作用于不正当活动的情况下,我们认为这是一种无意的用途示例。关于数据获取,用于模型开发的训练数据是从网络上的各种公开可用来源中挖掘的。虽然我们在数据清理上投入了大量精力,但个人身份信息可能无法完全消除。最后,尽管我们已尽力优化翻译质量,但模型产生的错误翻译可能仍然存在。尽管可能性很低,但这可能对那些依赖这些翻译做出重要决策的人产生不利影响(特别是与健康和安全有关的决策)。

注意事项和建议

• 我们的模型在维基媒体领域进行了测试,并在 NLLB-MD 中的其他领域上进行了有限的调查。此外,支持的语言可能具有我们的模型没有捕捉到的变异。用户应进行适当的评估。

碳足迹详细信息

• 二氧化碳(CO2e)估计见第8.8节。