模型:
facebook/nllb-200-1.3B
这是NLLB-200的1.3B变体的模型卡片。
这是该特定检查点的 metrics 。
•模型性能指标:NLLB-200模型使用BLEU、spBLEU和chrF++等机器翻译社区广泛采用的指标进行评估。此外,我们还使用XSTS协议进行人工评估,并测量生成的翻译的毒性。
•我们使用了来自各种来源的平行多语言数据来训练模型。我们在论文中详细报告了数据选择和构建过程。我们还使用了从Common Crawl构建的单语数据。在第5.2节中提供了更多详细信息。
•在这项工作中,我们采用了一种反思性的技术开发方法,以确保我们优先考虑人类用户并最小化可能转移给他们的风险。虽然我们在整篇文章中反思了我们的伦理考虑,但这里还有一些需要强调的额外观点。首先,许多选择进行研究的语言都是低资源语言,特别强调非洲语言。虽然质量翻译可以改善这些社区的教育和信息获取,但这种访问也可能使数字素养水平较低的群体更容易受到错误信息或在线欺诈的伤害。后一种情况可能发生在不良行为者将我们的工作用于恶意活动时,我们认为这是一种非预期的使用示例。关于数据获取,用于模型开发的训练数据是从互联网上的各种公开可用来源进行挖掘的。尽管我们在数据清洗方面投入了大量工作,但个人可识别信息可能并未完全消除。最后,尽管我们尽力优化翻译质量,但模型产生的误译可能仍然存在。尽管机会很少,但这可能对依赖这些翻译做出重要决策的人产生不利影响(尤其是与健康和安全相关的决策)。
•我们的模型在维基媒体领域进行了测试,对NLLB-MD中支持的其他领域进行了有限的调查。此外,支持的语言可能有我们的模型未捕捉到的变体。用户应进行适当评估。
•二氧化碳(CO2e)估计在第8.8节中报道。