Helsinki-NLP/opus-mt-ru-en | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

Helsinki-NLP/opus-mt-ru-en

任务:

翻译

类库:

PyTorch TensorFlow Rust Transformers

语言:

其他:

marian 文生文 AutoTrain Compatible

许可:

cc-by-4.0

模型介绍文件清单

英文

opus-mt-ru-en

模型详细信息

模型描述：

开发者：赫尔辛基大学语言技术研究小组
模型类型：Transformer-align
语言：
- 源语言：俄语
- 目标语言：英语
许可证：CC-BY-4.0
更多信息资源：
- GitHub Repo

使用方式

直接使用

该模型可用于翻译和文本生成。

风险、限制和偏见

内容警告：读者应注意，本节内容包含令人不安、冒犯性的内容，并可能传播历史和现实中的刻板印象。

相关研究已探讨了语言模型的偏见和公平性问题（参见，例如， Sheng et al. (2021) 和 Bender et al. (2021) ）。

关于此模型的数据集的更多详细信息可在OPUS自述文件中找到： ru-en

训练情况

训练数据预处理

预处理：标准化 + SentencePiece
数据集： opus
下载原始权重： opus-2020-02-26.zip
测试集翻译： opus-2020-02-26.test.txt

评估结果

结果

测试集得分： opus-2020-02-26.eval.txt

基准测试

testset	BLEU	chr-F
newstest2012.ru.en	34.8	0.603
newstest2013.ru.en	27.9	0.545
newstest2014-ruen.ru.en	31.9	0.591
newstest2015-enru.ru.en	30.4	0.568
newstest2016-enru.ru.en	30.1	0.565
newstest2017-enru.ru.en	33.4	0.593
newstest2018-enru.ru.en	29.6	0.565
newstest2019-ruen.ru.en	31.4	0.576
Tatoeba.ru.en	61.1	0.736

引用信息

@InProceedings{TiedemannThottingal:EAMT2020,
  author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
  title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
  booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
  year = {2020},
  address = {Lisbon, Portugal}
 }

如何开始使用该模型

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-ru-en")

model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-ru-en")

作者:

Language Technology Research Group at the University of Helsinki

数据集大小:

1.1 GB