英文

mBART-50

mBART-50是一个使用“多语言去噪声预训练”目标进行预训练的多语言序列到序列模型。它是在 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 论文中提出的。

模型描述

mBART-50是一个多语言序列到序列模型。它旨在通过多语言微调来展示可以创建多语言翻译模型。与在一个方向上进行微调不同,预训练模型需要同时在多个方向上进行微调。mBART-50是在原始mBART模型的基础上扩展而来,新增了额外的25种语言,以支持50种语言的多语言机器翻译模型。其预训练目标如下所述。

多语言去噪声预训练:通过连接数据D = {D1, ..., DN},将N种语言纳入模型中,其中每个Di是语言i的一组单语文档集合。源文档使用两种方案进行噪声处理,首先是随机打乱原始句子的顺序,其次是一种新颖的内嵌方案,其中文本片段被替换为单个掩码标记。然后,模型的任务是重构原始文本。每个实例的35%单词通过从泊松分布(λ = 3.5)中随机采样一个跨度长度来进行掩码。解码器的输入是具有一个位置偏移的原始文本。使用语言ID符号LID作为初始标记,以预测句子。

预期用途和限制

mbart-large-50是预训练模型,主要用于在翻译任务上进行微调。也可以在其他多语言序列到序列任务上进行微调。请参阅 model hub 以查找经过微调的版本。

训练

由于该模型是多语言的,它期望以不同的格式提供序列。一个特殊的语言ID标记被用作前缀,出现在源文本和目标文本中。文本格式为[lang_code] X [eos],其中X分别表示源文本或目标文本,lang_code是源文本的源语言代码和目标文本的目标语言代码。bos从不被使用。一旦以这种格式准备好示例,它可以像任何其他序列到序列模型一样进行训练。

from transformers import MBartForConditionalGeneration, MBart50TokenizerFast

model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50", src_lang="en_XX", tgt_lang="ro_RO")

src_text = " UN Chief Says There Is No Military Solution in Syria"
tgt_text =  "Şeful ONU declară că nu există o soluţie militară în Siria"

model_inputs = tokenizer(src_text, return_tensors="pt")
with tokenizer.as_target_tokenizer():
    labels = tokenizer(tgt_text, return_tensors="pt").input_ids

model(**model_inputs, labels=labels) # forward pass

支持的语言

阿拉伯语(ar_AR),捷克语(cs_CZ),德语(de_DE),英语(en_XX),西班牙语(es_XX),爱沙尼亚语(et_EE),芬兰语(fi_FI),法语(fr_XX),古吉拉特语(gu_IN),印地语(hi_IN),意大利语(it_IT),日语(ja_XX),哈萨克语(kk_KZ),韩语(ko_KR),立陶宛语(lt_LT),拉脱维亚语(lv_LV),缅甸语(my_MM),尼泊尔语(ne_NP),荷兰语(nl_XX),罗马尼亚语(ro_RO),俄语(ru_RU),僧加罗语(si_LK),土耳其语(tr_TR),越南语(vi_VN),中文(zh_CN),南非荷兰语(af_ZA),阿塞拜疆语(az_AZ),孟加拉语(bn_IN),波斯语(fa_IR),希伯来语(he_IL),克罗地亚语(hr_HR),印度尼西亚语(id_ID),格鲁吉亚语(ka_GE),高棉语(km_KH),马其顿语(mk_MK),马拉雅拉姆语(ml_IN),蒙古语(mn_MN),马拉地语(mr_IN),波兰语(pl_PL),普什图语(ps_AF),葡萄牙语(pt_XX),瑞典语(sv_SE),斯瓦希里语(sw_KE),泰米尔语(ta_IN),泰卢固语(te_IN),泰语(th_TH),塔加洛语(tl_XX),乌克兰语(uk_UA),乌尔都语(ur_PK),科萨语(xh_ZA),加利西亚语(gl_ES),斯洛文尼亚语(sl_SI)

BibTeX引用和引文信息

@article{tang2020multilingual,
    title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
    author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
    year={2020},
    eprint={2008.00401},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}