英文

Google's mT5

mT5 在 mC4 语料库上进行了预训练,涵盖了101种语言:

阿非利卡语,阿尔巴尼亚语,阿姆哈拉语,阿拉伯语,亚美尼亚语,阿塞拜疆语,巴斯克语,白俄罗斯语,孟加拉语,保加利亚语,缅甸语,加泰罗尼亚语,宿务语,奇切瓦语,汉语,科西嘉语,捷克语,丹麦语,荷兰语,英语,世界语,爱沙尼亚语,菲律宾语,芬兰语,法语,加利西亚语,格鲁吉亚语,德语,希腊语,古吉拉特语,海地克里奥尔语,豪萨语,夏威夷语,希伯来语,印地语,苗语,匈牙利语,冰岛语,伊博语,印度尼西亚语,爱尔兰语,意大利语,日语,爪哇语,卡纳达语,哈萨克语,高棉语,韩语,库尔德语,吉尔吉斯语,老挝语,拉丁语,拉脱维亚语,立陶宛语,卢森堡语,马其顿语,马尔加什语,马来语,马拉雅拉姆语,马耳他语,毛利语,马拉地语,蒙古语,尼泊尔语,挪威语,普什图语,波斯语,波兰语,葡萄牙语,旁遮普语,罗马尼亚语,俄语,萨摩亚语,苏格兰盖尔语,塞尔维亚语,绍纳语,信德语,僧伽罗语,斯洛伐克语,斯洛文尼亚语,索马里语,索托语,西班牙语,巽他语,斯瓦希里语,瑞典语,塔吉克语,泰米尔语,泰卢固语,泰语,土耳其语,乌克兰语,乌尔都语,乌兹别克语,越南语,威尔士语,西弗里斯兰语,科萨语,意第绪语,约鲁巴语,祖鲁语。

注意:mT5 只在 mC4 上进行了预训练,不包括任何监督训练。因此,在使用该模型进行下游任务之前,需要进行微调。

预训练数据集: mC4

其他社区检查点: here

论文: mT5: A massively multilingual pre-trained text-to-text transformer

作者:Linting Xue,Noah Constant,Adam Roberts,Mihir Kale,Rami Al-Rfou,Aditya Siddhant,Aditya Barua,Colin Raffel

摘要

最近的 "文本到文本传递变压器"(T5)利用统一的文本到文本格式和规模,在各种英语自然语言处理任务上取得了最先进的结果。在本文中,我们介绍了 mT5,这是 T5 的多语言变种,它在基于 Common Crawl 的新数据集上进行了预训练,涵盖了101种语言。我们描述了 mT5 的设计和修改的训练,并展示了它在许多多语言基准测试上的最先进性能。本研究中使用的所有代码和模型检查点都是公开可用的。