该模型可用于翻译和文本生成。
内容警告:读者应注意本部分包含令人不安、冒犯的内容,并可能传播历史和当前的刻板印象。
已有大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
有关此模型的数据集的详细信息,请参阅OPUS自述文件: zho-eng
预处理:标准化+SentencePiece(spm32k,spm32k)
参考长度:82826.0
数据集: opus
下载原始权重: opus-2020-07-17.zip
测试集翻译: opus-2020-07-17.test.txt
测试集得分: opus-2020-07-17.eval.txt
短文惩罚:0.948
testset | BLEU | chr-F |
---|---|---|
Tatoeba-test.zho.eng | 36.1 | 0.548 |
@InProceedings{TiedemannThottingal:EAMT2020, author = {J{\"o}rg Tiedemann and Santhosh Thottingal}, title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld}, booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)}, year = {2020}, address = {Lisbon, Portugal} }
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-zh-en") model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-zh-en")