模型描述:
该模型可用于翻译和文本生成。
内容警告:读者应注意,本节内容包含令人不安、冒犯性的内容,并可能传播历史和现实中的刻板印象。
相关研究已探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
关于此模型的数据集的更多详细信息可在OPUS自述文件中找到: ru-en
预处理:标准化 + SentencePiece
数据集: opus
下载原始权重: opus-2020-02-26.zip
测试集翻译: opus-2020-02-26.test.txt
testset | BLEU | chr-F |
---|---|---|
newstest2012.ru.en | 34.8 | 0.603 |
newstest2013.ru.en | 27.9 | 0.545 |
newstest2014-ruen.ru.en | 31.9 | 0.591 |
newstest2015-enru.ru.en | 30.4 | 0.568 |
newstest2016-enru.ru.en | 30.1 | 0.565 |
newstest2017-enru.ru.en | 33.4 | 0.593 |
newstest2018-enru.ru.en | 29.6 | 0.565 |
newstest2019-ruen.ru.en | 31.4 | 0.576 |
Tatoeba.ru.en | 61.1 | 0.736 |
@InProceedings{TiedemannThottingal:EAMT2020, author = {J{\"o}rg Tiedemann and Santhosh Thottingal}, title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld}, booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)}, year = {2020}, address = {Lisbon, Portugal} }
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ru-en") model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-ru-en")