模型:
facebook/mbart-large-50-many-to-many-mmt
该模型是 mBART-large-50 的精调检查点。mbart-large-50-many-to-many-mmt 是用于多语言机器翻译的精调模型。它是在 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 论文中介绍的。
该模型可以直接在任意两种语言之间进行翻译。为了将其翻译为目标语言,强制将目标语言ID作为生成的第一个标记。要将目标语言ID作为生成的第一个标记进行强制控制,请将 forced_bos_token_id 参数传递给 generate 方法。
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast article_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है" article_ar = "الأمين العام للأمم المتحدة يقول إنه لا يوجد حل عسكري في سوريا." model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt") tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt") # translate Hindi to French tokenizer.src_lang = "hi_IN" encoded_hi = tokenizer(article_hi, return_tensors="pt") generated_tokens = model.generate( **encoded_hi, forced_bos_token_id=tokenizer.lang_code_to_id["fr_XX"] ) tokenizer.batch_decode(generated_tokens, skip_special_tokens=True) # => "Le chef de l 'ONU affirme qu 'il n 'y a pas de solution militaire dans la Syrie." # translate Arabic to English tokenizer.src_lang = "ar_AR" encoded_ar = tokenizer(article_ar, return_tensors="pt") generated_tokens = model.generate( **encoded_ar, forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"] ) tokenizer.batch_decode(generated_tokens, skip_special_tokens=True) # => "The Secretary-General of the United Nations says there is no military solution in Syria."
查看 model hub 以获取更多精调版本。
阿拉伯语 (ar_AR),捷克语 (cs_CZ),德语 (de_DE),英语 (en_XX),西班牙语 (es_XX),爱沙尼亚语 (et_EE),芬兰语 (fi_FI),法语 (fr_XX),古吉拉特语 (gu_IN),印地语 (hi_IN),意大利语 (it_IT),日语 (ja_XX),哈萨克语 (kk_KZ),韩语 (ko_KR),立陶宛语 (lt_LT),拉脱维亚语 (lv_LV),缅甸语 (my_MM),尼泊尔语 (ne_NP),荷兰语 (nl_XX),罗马尼亚语 (ro_RO),俄语 (ru_RU),僧伽罗语 (si_LK),土耳其语 (tr_TR),越南语 (vi_VN),中文 (zh_CN),南非荷兰语 (af_ZA),阿塞拜疆语 (az_AZ),孟加拉语 (bn_IN),波斯语 (fa_IR),希伯来语 (he_IL),克罗地亚语 (hr_HR),印度尼西亚语 (id_ID),格鲁吉亚语 (ka_GE),高棉语 (km_KH),马其顿语 (mk_MK),马拉雅拉姆语 (ml_IN),蒙古语 (mn_MN),马拉地语 (mr_IN),波兰语 (pl_PL),普什图语 (ps_AF),葡萄牙语 (pt_XX),瑞典语 (sv_SE),斯瓦希里语 (sw_KE),泰米尔语 (ta_IN),泰卢固语 (te_IN),泰语 (th_TH),他加禄语 (tl_XX),乌克兰语 (uk_UA),乌尔都语 (ur_PK),科萨语 (xh_ZA),加利西亚语 (gl_ES),斯洛文语 (sl_SI)
@article{tang2020multilingual, title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning}, author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan}, year={2020}, eprint={2008.00401}, archivePrefix={arXiv}, primaryClass={cs.CL} }