英文

Google's mT5

mT5是在 mC4 语料库上预训练的,覆盖了101种语言:

阿非利堪语,阿尔巴尼亚语,阿姆哈拉语,阿拉伯语,亚美尼亚语,阿塞拜疆语,巴斯克语,白俄罗斯语,孟加拉语,保加利亚语,缅甸语,加泰罗尼亚语,宿务语,奇切瓦语,汉语,科西嘉语,捷克语,丹麦语,荷兰语,英语,世界语,爱沙尼亚语,菲律宾语,芬兰语,法语,加利西亚语,格鲁吉亚语,德语,希腊语,古吉拉特语,海地克里奥尔语,豪萨语,夏威夷语,希伯来语,印地语,苗语,匈牙利语,冰岛语,伊博语,印度尼西亚语,爱尔兰语,意大利语,日语,爪哇语,卡纳达语,哈萨克语,高棉语,韩语,库尔德语,吉尔吉斯语,老挝语,拉丁语,拉脱维亚语,立陶宛语,卢森堡语,马其顿语,马尔加什语,马来语,马拉亚拉姆语,马耳他语,毛利语,马拉地语,蒙古语,尼泊尔语,挪威语,普什图语,波斯语,波兰语,葡萄牙语,旁遮普语,罗马尼亚语,俄语,萨摩亚语,苏格兰盖尔语,塞尔维亚语,绍纳语,信迪语,僧伽罗语,斯洛伐克语,斯洛文尼亚语,索马里语,塞索托语,西班牙语,巽他语,斯瓦希里语,瑞典语,塔吉克语,泰米尔语,泰卢固语,泰语,土耳其语,乌克兰语,乌尔都语,乌兹别克语,越南语,威尔士语,弗里斯兰语,科萨语,意第绪语,约鲁巴语,祖鲁语。

注意:mT5仅在mC4上进行了预训练,不包括任何监督训练。因此,在将其用于下游任务之前,必须对该模型进行微调。

预训练数据集: mC4

其他社区检查点: here

论文: mT5: A massively multilingual pre-trained text-to-text transformer

作者:Linting Xue,Noah Constant,Adam Roberts,Mihir Kale,Rami Al-Rfou,Aditya Siddhant,Aditya Barua,Colin Raffel

摘要

最近的“文本到文本转换变压器”(T5)利用统一的文本到文本格式和规模,在各种英语自然语言处理任务中取得了最先进的成果。在本文中,我们介绍了mT5,这是T5的多语言变体,它是在基于Common Crawl的全新数据集上进行了预训练,涵盖了101种语言。我们描述了mT5的设计和修改后的训练,并展示了它在许多多语言基准测试中的最先进性能。本文中使用的所有代码和模型检查点都是公开可用的。