文本转语音有了新突破:Meta发布了机器学习模型Voicebox

2023年06月19日 由 Neo 发表 835175 0
上周,Meta Platforms的人工智能研究部门推出了一个可以从文本生成语音的机器学习模型Voicebox。它可以执行许多没有经过训练的任务,包括编辑、去噪和风格转换,这是其他文本转语音模型所不具备的。



该模型采用了Meta研究人员开发的一种特殊方法进行训练。由于担心可能被滥用,Meta并没有公开发布Voicebox,但其初步效果令人振奋,有望在未来为众多应用提供动力。

流匹配

Voicebox是一个能够跨六种语言(英语、法语、西班牙语、德语、波兰语和葡萄牙语)合成语音的生成模型。它与大型语言模型一样,被训练在一个非常通用的任务上,适用于多种应用场景。但是,大型语言模型只是试图学习单词和文本序列的统计规律,而Voicebox则是学习了将声音音频样本与其转录之间的映射关系。

这样一来,这个模型就可以在几乎不需要微调的情况下,应对许多下游任务。“我们的目标是构建一个统一的模型,它可以通过上下文学习来执行各种文本引导的语音生成任务,”Meta的研究人员在他们的论文(PDF)中介绍了Voicebox的技术细节。

该模型使用了Meta的“流匹配”技术进行训练,这种技术比其他生成模型使用的基于扩散的学习方法更高效和泛化。这种技术使得Voicebox能够“从各种语音数据中学习,而不需要对这些变化进行仔细的标注。”由于不需要人工标注,研究人员能够用来自有声读物的5万小时的语音和转录来训练Voicebox。

这样的模型可以在很少或没有微调的情况下应用于许多下游任务。“目标是构建一个单一的模型,可以通过上下文学习执行许多文本引导的语音生成任务,”Meta的研究人员在他们描述Voicebox技术细节的论文(PDF)中写道。

跨语言复制声音,编辑语音中的错误,以及更多功能

与专门为某个应用训练的生成模型不同,Voicebox可以执行许多它没有经过训练的任务。例如,该模型可以使用两秒钟的语音样本来为新文本生成语音。Meta表示,这种能力可以用于为无法说话的人或自定义非可玩游戏角色和虚拟助手的声音。

Voicebox还可以以不同的方式进行风格转换。例如,你可以给模型提供两个音频和文本样本。它会使用第一个音频样本作为风格参考,并修改第二个样本以匹配参考样本的声音和语调。有趣的是,该模型可以跨不同语言做同样的事情,这可以用于“帮助人们以一种自然、真实的方式交流——即使他们不说同一种语言。”

该模型还可以做各种编辑任务。例如,如果你在录制你的声音时,后台有狗叫声,你可以给Voicebox提供音频和转录,并掩盖掉有背景噪音的部分。该模型会使用转录来生成没有背景噪音的缺失部分。

同样的技术也可以用来编辑语音。例如,如果你说错了一个词,你可以掩盖掉那部分音频样本,并将其与编辑后的文本转录一起传递给Voicebox。该模型会以与周围声音和语调相匹配的方式生成新文本的缺失部分。

Voicebox的一个有趣应用是语音采样。该模型可以从单个文本序列生成各种语音样本。这种能力可以用于生成合成数据来训练其他语音处理模型。“我们的结果显示,在Voicebox生成的合成语音上训练的语音识别模型几乎与在真实语音上训练的模型表现一样好,错误率降低了1%,而之前的文本到语音模型生成的合成语音错误率为45%到70%。”Meta写道。

Voicebox也有局限性。由于它是在有声读物数据上训练的,它不能很好地转移到非正式的、包含非语言声音的对话语音上。它也不能完全控制生成语音的不同属性,如声音风格、语调、情感和声学条件。Meta的研究团队正在探索未来克服这些局限性的技术。

模型未发布

人们对AI生成内容的威胁越来越担心。例如,近期有网络犯罪分子试图通过打电话并使用AI生成的声音来冒充她孙子来诈骗一位女士。像Voicebox这样先进的语音合成系统可能会被用于类似目的或其他邪恶行为,如制造假证据或操纵真实音频。

“与其他强大的新AI创新一样,我们认识到这项技术带来了滥用和意外伤害的可能性,”Meta在其AI博客上写道。由于这些担忧,Meta没有发布该模型,但在技术论文中提供了关于架构和训练过程的技术细节。该论文还包含了关于一个分类器模型的细节,该模型可以检测由Voicebox生成的语音和音频,以减轻使用该模型的风险。

 

来源:https://venturebeat.com/ai/meta-announces-voicebox-a-generative-model-for-multiple-voice-synthesis-tasks/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消