中科院-极限元联合实验室温正棋:语音合成用起来简单,优化难

2017年07月25日 由 荟荟 发表 832093 0
语音合成是一个已经从无到有的技术,而且已经可以用的技术,但是要完成优化则需要投入大量人力物力。”中科院自动化所副研究员温正棋表示,产学结合是促进语音合成的最好方式。

语音作为一种新兴的交互技术,已经逐步成为科技产品的必备功能。细分来看,整个语音交互过程分为信息输入、信息处理和信息输出三步,相对应的技术便是语音识别、语义分析(自然语言处理)和语音合成。

近几年,语音识别一直是是社会关注的热点,科大讯飞和搜狗在识别准确率上你追我赶;语义分析里的自然语言处理技术也得到了大规模商业化应用,各种智能客服、聊天机器人如雨后春笋般出现,可是唯独语音合成技术无人问津,显得格外冷门。

为了解语音合成技术的发展现状,亿欧采访到中国科学院自动化研究所模式识别重点实验室副研究员温正棋。据了解,温正棋在博士期间主攻方向是语音合成,目前任中科院自动化研究所-极限元联合实验室的主任,在语音技术上有多年的深入研究经验。

如何区分合成语音的优劣?

语音合成又称文语转换,指通过机械的、电子的方法产生人造语音的技术。温正棋表示,目前语音合成的商业化程度较高,尤其在叙述风格上,语音合成技术可以将文字内容流畅地转换成语音,但是目前水平下的合成语音很难体现出情感特征。

例如在韵律上不够灵活,声调变化上相对死板,“做得比较差的合成语音,人听久了会很累,但是做得比较好的合成语音能明显感觉出较强的表现力,差距还是比较明显。”温正棋说到。

那么优劣的合成语音是如何评定的呢?温正棋坦言,除了一些客观指标,目前对合成语音评判常采用“平均意见得分”,即邀请一定数量的语音专业人士和一定数量的普通人,对合成的语音打分后取平均值,颇有些歌唱比赛的意味。

虽然该方法较为主观,但相比利用客观数据评定的方式,该方法可以更好地将优劣语音区分开,毕竟人耳的听感相对比较敏感、也更加直接。

拼接式合成效果更佳

据了解,语音合成的过程分为三步:首先,研究原始音频的前端韵律,进行文本分析。然后,系统根据文本分析生成语音参数,即完成文本参数到语音参数的映射关系。最后,由语音参数转换到声学波形。整个过程类似于“编码,信息匹配,解码”的形式。

但是在商业化上,语音合成常使用两种方法:一种是参数语音合成,另一种则是拼接。拼接相比之下更容易理解,即在语料库中抽取合适的拼接单元,拼接成为句子。参数语音合成则需要文本分析,然后训练模型,对每个语素的上下文相关发音进行分析建模,预测韵律和声学参数。

温正棋介绍,如果利用好的合成系统,拼接式的语音合成需要对录音人进行长达几十个小时以上的录音采集,而参数式语音合成则只需要十个小时的录音采集,即可完成一套定制化语音包的制作。

在体验效果上,拼接方式的语音更加贴近真实发音,但是参数合成的方式更容易实现。例如高德地图上的明星语音包,便是采用参数合成方式制作。只不过明星很难抽出完整地十几个小时完成音库的录制,因此需要一些特殊处理。

此前亿欧采访致力于语音技术的极限元时,联合创始人马骥透露:“因为明星的时间成本较高,不可能消耗大量时间来单独做这项工作。以高德地图里林志玲的声音为例,高德是找专人,跟了志玲姐姐几个月,贴身录音,但是收集的录音也不够,他们还会把林志玲在视频、音频节目中的声音收集下来,然后把这些原始声音文件处理提取出数字特征,再完成语音合成。”

“产学结合”驱动语音合成技术发展

虽然语音合成的商业化程度较高,但是体验感却依旧达不到人们的期待。对此温正棋表示,语音合成是一个已经从无到有的技术,而且已经可以用的技术,但是要完成优化则需要投入大量人力物力,因此以实现盈利为目的的企业在提升语音合成体验的意愿上并不高。

而相比之下,语音识别在一些特定领域还不能算得上成熟技术,识别率哪怕提升1%也会带来体验感的巨大提升,进而获得商业机会,因此企业推动该技术发展的速度很快。

温正棋告诉亿欧,推动语音合成发展的最好方式应该是产学结合,也是目前语音企业普遍采用的方式。例如捷通华声同清华大学、科大讯飞同中科大、思必驰与上海交大等的合作。温正棋透露,国内研发语音的其他高校或科研机构也普遍采用该模式,例如中科院自动化所、中科院声学所等。

据温正棋透露,中科院自动化所目前已经同语音企业极限元联合挂牌成立“中国科学院自动化研究所-极限元(北京)智能科技股份有限公司智能交互联合实验室”,他将指导该实验室在语音合成、语音识别、关键词检索等技术上进行技术研究,辅助极限元的商业化进程,实现学术和商业的结合。

 
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消