Meta开源多语言语音人工智能,可覆盖1,100多种语言

2023年06月14日 由 Susan 发表 232721 0
Meta 人工智能开源了大规模多语言语音(MMS)模型,该模型支持超过1,100种语言的自动语音识别(ASR)和文本到语音合成(TTS),并支持超过4,000种语言的语言识别(LID)。MMS可以优于现有模型,并覆盖了近10倍的语言数量。

MMS是基于wav2vec模型的,预先训练一个包含1,406种语言中的491,000小时语音的数据集上。这个数据集包括了现有的跨语言数据集,以及一个新的包含9,345小时无标注宗教文本朗读、歌曲和其他语音的数据集,涵盖了3,860种语言。为了微调ASR和TTS模型,Meta使用了包含1,107种语言中圣经朗读的录音,提供了标记过的跨语言语音数据。微调后的MMS模型可以在这些1,107种语言中执行ASR和TTS,同时在4,017种语言中进行语言识别(LID)。据Meta称,MMS模型可以在各种语言的ASR和TTS任务中达到最先进的性能,同时在低资源语言方面显著优于其他模型。该模型的开源预计将使研究人员和开发人员能够访问一个强大的工具,用于在包括传统商业应用中经常被忽视的低资源语言在内的广泛语言范围内搭建语音识别和合成系统。

“世界上许多语言正面临消失的危险,当前的语音识别和语音生成技术的限制只会加速这一趋势。我们设想一个世界,技术有相反的作用,鼓励人们使用他们喜欢的语言访问信息和使用技术,从而使他们能够更好地保留他们的语言。”

使用有监督学习训练语音处理AI模型需要大量标记的语音数据集,通常是音频录音与文本对应。对于像英语这样的许多语言,这些数据集是容易获取的;然而,对于母语使用者非常少的低资源语言,收集大量数据集可能是不可能的。Meta之前的XLS-R和NLLB研究显示,单个跨语言模型结合自监督预训练,在少量数据的微调后即可在大约100种语言中表现良好,甚至在低资源语言上也可行。最近,InfoQ报道了OpenAI的Whisper和Google的USM,它们也各自支持约100种语言。

使用有监督学习训练语音处理人工智能模型需要大量标记的语音数据集,通常是音频录音与文本对应。对于像英语这样的许多语言,这些数据集是容易获取的;然而,对于母语使用者非常少的低资源语言,收集大量数据集可能是不可能的。Meta之前的XLS-R和NLLB研究显示,单个跨语言模型结合自监督预训练,在少量数据的微调后即可在大约100种语言中表现良好,甚至在低资源语言上也可行。最近,InfoQ报道了OpenAI的Whisper和Google的USM,它们也各自支持约100种语言。

为了让他们的模型能够处理数千种语言,Meta需要一个包含更多语言的音频数据集。团队选择使用基督教的音频录音,这为超过1,000种语言提供了标记的语音数据,每种语言平均为32小时。尽管每种语言的录音都是单个发言者,通常是男性,但研究人员发现这在最终模型中引入的偏差非常小:

该模型在女性和男性标准音频上表现相似。他们还发现,该模型在很大程度上基于宗教文本进行训练并不会产生任何偏见。Meta首席人工智能科学家Yann LeCun在Twitter上指出了MMS的几个亮点,特别是它的“单词错误率是Whisper的一半”。一些用户指出,该模型的可用性受到其非商业许可证的限制。另一位用户指出了其他缺点,并质疑它是否真的比Whisper更好“在我的测试中,它在转录为文本方面表现不如Whisper,会听错单词并未听到隐含的标点符号。此外,MMS的速度大约比Faster-Whisper慢10倍。MMS使用20  GB的RAM,而Whisper使用约1 GB。由于这些原因以及其他原因,它对于人们在实际应用中使用而言是相当不可行的。还要注意,你需要指定被说的语言,而Whisper会为你识别语言。希望这些问题随着时间解决,并且OpenAI在这个领域最终有一个竞争对手。”


来源:https://www.infoq.com/news/2023/06/meta-mms-speech-ai/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消