DeepMind和谷歌用人工智能重现了前NFL后卫蒂姆•肖的声音
2019年12月19日 由 TGS 发表
966573
0
今年8月,谷歌人工智能研究人员与ALS治疗发展研究所合作,分享了一个针对有说话障碍的人的语音到文本转录服务Euphonia项目的细节。他们表明,使用母语和非母语英语使用者的音频数据集和帕罗特龙(一种针对有障碍人群的人工智能工具)的技术,可以大大提高语音合成和生成的质量。
最近,在一个案例研究中,谷歌研究人员和Alphabet的DeepMind团队雇佣了Euphonia,试图重现蒂姆·肖(Tim Shaw)的原始声音,他曾是NFL足球队的后卫,在2013年退休前曾效力于卡罗莱纳黑豹队、杰克逊维尔美洲虎队、芝加哥熊队和田纳西泰坦队。大约六年前,肖被诊断出患有肌萎缩性侧索硬化症,这需要他使用轮椅,在没有帮助的情况下,他无法说话、无法吞咽,甚至,无法呼吸。
在六个月的时间里,联合研究小组采用了一个可生成的人工智能模型WaveNet,来完成从肖被诊断为肌萎缩性脊髓侧索硬化症之前的声音样本中合成语音的任务——WaveNet能够模仿重音和语调。
与之前的语音生成模型相比,它生成的语音片段更有说服力。谷歌表示,基于平均意见评分,它已经将人类语音的质量差距缩小了70%——而且它的效率更高。它在谷歌的张量处理单元(TPUs)上运行时,一个1秒的语音样本只需要50毫秒就能创建出来。
WaveNet早已经被用于为谷歌的会话平台、谷歌助理生成定制语音,最近,它还被用于在谷歌云平台上为谷歌的云文本到语音服务生成数十个新的语音和语音变体——仅8月份就有38种。
微调被证明是从最少的训练数据中获得高质量合成的关键。为了重现肖的声音,谷歌和DeepMind团队采用了去年发表的一篇研究论文中提出的一种方法(“样本有效的自适应文本到语音”),该方法包括在几天内对多达数千个扬声器的大型WaveNet模型进行预训练,直到它能够产生自然发声的基本语音。在这一点上,该模型从目标说话人那里得到一小部分数据,使得其生成的语音具有该说话人的特征。