Facebook AI可将音频中的人声在歌手间进行转换
2019年04月17日 由 张江 发表
217122
0
利用AI将一个人的歌唱风格套用到另一个人身上,现在这种想法已经实现,在论文“Unsupervised Singing Voice Conversion”中,Facebook AI Research和特拉维夫大学的科学家描述了一个系统,可以直接将一个歌手的音频转换为另一个歌手的声音。更令人印象深刻的是,它是无监督的,这意味着它能够实现以前从未遇到的未分类、未注释数据的转换。
该团队声称,模型通过学习5到30分钟的歌声,就能在歌手之间进行转换,部分归功于创新的训练方案和数据增强技术。
“我们的方法可能使自己摆脱自己声音的某些限制,建议的网络不是以文本或笔记为条件,并且不要求各种歌手之间的并行训练数据,也不需要使用文本的音频副本或音符,虽然现有的音高校正方法可以纠正局部音高偏移,但我们的工作为其他语音特征提供了灵活性。”
他们的方法建立在WaveNet上,这是一种谷歌开发的自动编码器(一种人工智能用于学习无人监督的数据集的表示),可以根据录音波形生成模型。它采用了反向翻译,将一个数据样本转换为目标样本(在这种情况下,一个歌手的声音转换为另一个的声音),然后将其翻译回来,如果它与原始样本不匹配,则进行调整。此外,该团队使用的合成样本使用比其他发声者更接近源歌手,还有一个“混淆网络”,确保系统对歌手不可知。
分两个阶段进行训练人工智能:首先,将一个称为softmax重建损失的数学函数分别应用于每个歌手的样本,然后,通过训练歌手的混合矢量嵌入得到了新歌手的样本,是先于反向翻译的。
为了扩充训练数据集,作者通过倒向播放信号并不知不觉地改变相位来转换音频剪辑。这使数据集大小增加四倍。第一次增强创造了一首毫无意义的歌曲,但仍然可以识别为同一位歌手;第二次增强为训练创造了一种感知上难以区分但又新颖的信号。
在实验中,该团队采购了两个公开的数据集,斯坦福大学的移动表演数字档案馆(DAMP)语料库和新加坡国立大学的成语和口语语料库(NUS-48E),其中包含各种歌手演唱的歌曲。从一开始,他们随机挑选了五首歌曲和10首歌曲(他们用来训练AI系统的九首歌曲),从第二首歌曲中,他们为每位歌手选择了12首歌曲和四首歌曲,所有这些歌曲都用于训练。
第一组中,他们随机选择了5名歌手和10首歌,其中9首用来训练AI系统。第二组中,他们选择了12名歌手,每名歌手有4首歌,并用了所有歌曲训练AI。
接下来让人类评论员以1-5的等级判断生成的声音与目标歌声的相似性,并使用涉及分类系统的自动测试更客观地评估样本的质量。评论者给出转换后的音频平均得分约为4,而自动测试发现,生成的样本的识别精度几乎与重构的样本一样高。未来,他们希望可以在背景音乐的存在的情况下进行转换。