微软的FastSpeech AI加速真实声音的生成

2019年12月13日由 TGS 发表 362128 0

最先进的文本语音转换模型生成的声音，提起来与人类声音几乎相差无几。它们支持谷歌助手提供的神经声音，以及最近Alexa和亚马逊Polly服务提供的新闻播报员声音。但因为大多数模型共享相同的合成方法——生成一个mel-spectrogram的表示文本，然后使用声码器合成语音，所以，这些模型有一个相同的缺点。即——推理mel-spectrogram代缓慢，容易重复或跳过单词。

为了解决这个问题，来自微软和浙江大学的研究人员开发了一种新型的机器学习模型，FastSpeech。据开发团队在温哥华的NeurIPS 2019会议上发表的论文介绍，该模型具有一个独特的体系结构，不仅能提高性能，还可以消除单词重复或跳过的问题。

FastSpeech的长度调节器，可以调节mel-光谱图序列和音素序列之间的差异。由于音素序列的长度总是小于mel谱图序列的长度，所以一个音素对应几个mel谱图。然后，长度调整器根据持续时间扩展音素序列，使其与mel-光谱图序列的长度相匹配。(一个互补的持续时间预测成分决定了每个音素的持续时间。)最后，增加或减少与音素对齐的melb谱图数量或音素持续时间，按比例调整语速。

为了验证FastSpeech的有效性，研究人员将其与开源的LJ语音数据集和相应的文本进行了测试。在将语料库随机分为12500个训练样本、300个验证样本和300个测试样本后，他们对语音质量、鲁棒性等进行了一系列详细的评估与检测。

该团队报告称，FastSpeech的质量几乎与谷歌的Tacotron 2文本语音转换模型的质量相当，并且在鲁棒性方面明显优于领先的、基于变压器的模型，有效错误率为0%，基线错误率为34%。此外，它还能够将生成声音的速度，从0.5倍提高到1.5倍且不损失准确性。

标签：

语音识别微软

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 NVIDIA最新深度学习模型：根据音乐自动编舞

下一篇语音识别揭秘，它与人工智能是什么关系？

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）