英文

opus-mt-ru-en

目录

  • 模型详细信息
  • 使用方式
  • 风险、限制和偏见
  • 训练情况
  • 评估结果
  • 引用信息
  • 如何开始使用该模型

模型详细信息

模型描述:

  • 开发者:赫尔辛基大学语言技术研究小组
  • 模型类型:Transformer-align
  • 语言:
    • 源语言:俄语
    • 目标语言:英语
  • 许可证:CC-BY-4.0
  • 更多信息资源:

使用方式

直接使用

该模型可用于翻译和文本生成。

风险、限制和偏见

内容警告:读者应注意,本节内容包含令人不安、冒犯性的内容,并可能传播历史和现实中的刻板印象。

相关研究已探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。

关于此模型的数据集的更多详细信息可在OPUS自述文件中找到: ru-en

训练情况

训练数据预处理

评估结果

结果 基准测试
testset BLEU chr-F
newstest2012.ru.en 34.8 0.603
newstest2013.ru.en 27.9 0.545
newstest2014-ruen.ru.en 31.9 0.591
newstest2015-enru.ru.en 30.4 0.568
newstest2016-enru.ru.en 30.1 0.565
newstest2017-enru.ru.en 33.4 0.593
newstest2018-enru.ru.en 29.6 0.565
newstest2019-ruen.ru.en 31.4 0.576
Tatoeba.ru.en 61.1 0.736

引用信息

@InProceedings{TiedemannThottingal:EAMT2020,
  author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
  title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
  booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
  year = {2020},
  address = {Lisbon, Portugal}
 }

如何开始使用该模型

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ru-en")

model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-ru-en")