模型:
facebook/wav2vec2-xls-r-300m
Facebook's Wav2Vec2 XLS-R 计数300百万参数。
XLS-R是Facebook AI的大规模多语言预训练语音模型("XLM-R for Speech")。它在436k小时的无标注语音上进行了预训练,包括VoxPopuli、MLS、CommonVoice、BABEL和VoxLingua107。它使用wav2vec 2.0目标,在128种语言中进行。在使用模型时,请确保语音输入采样率为16kHz。
注意:这个模型应该在下游任务上进行微调,比如自动语音识别、翻译或分类。查看 this blog 以获取有关ASR的更多信息。
作者:Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli
摘要:本文介绍了基于wav2vec 2.0的跨语言语音表示学习的大规模模型XLS-R。我们在128种语言中,对436K小时的公开可用语音音频进行了多达20亿个参数的模型训练,比已知的最大前期工作的公共数据多一个数量级。我们的评估涵盖了各种任务、领域、数据范围和语言,包括高资源和低资源语言。在CoVoST-2语音翻译基准上,我们相对于21个翻译方向向英语平均改进了7.4 BLEU的先验状态。对于语音识别,XLS-R相对于BABEL、MLS、CommonVoice以及VoxPopuli的最佳先前工作,平均降低了20%-33%的错误率。XLS-R还在VoxLingua107语言识别上建立了新的先进技术。此外,我们还展示了当将英语语音翻译成其他语言时,足够的模型大小下,跨语言预训练可以胜过仅英语预训练,这种情况有利于单语预训练。我们希望XLS-R可以帮助改进世界上更多语言的语音处理任务。
原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 中找到。
有关如何对模型进行微调的更多信息,请参见 this google colab 。
您可以找到其他带有不同数量参数的预训练XLS-R模型: