谷歌详解对话人工智能Euphonia,更好地识别带有口音的和不清晰的言语
2019年08月14日 由 bie管我叫啥 发表
718147
0
谷歌人工智能研究人员分享了关于项目Euphonia的详细信息,这是一种针对有语言障碍的人的语音到文本转录服务。他们还表示,他们的方法可以改善母语非英语的人的自动语音识别。
患有肌萎缩侧索硬化症(ALS)的人通常言语不清,但现有的AI系统通常用没有障碍或口音的语音数据训练。这种新方法之所以成功,主要是因为引入了有口音的和ALS患者的数据。
ALS与口音
团队发现仅5分钟的训练数据就改进了71%,个性化模型对ALS和口音来说,相对错误率分别降低62%和35%。
ALS语音数据集由来自67名ALS患者的36小时音频组成,与ALS治疗发展研究所合作。非英语母语者数据集称为名L2 Arctic,有20个话语录音,每个录音持续一个小时。
Euphonia项目还采用了Parrotron的技术,这是一种引入语音障碍的AI工具,以及微调技术。通过训练个性化模型,它解决了亚群异质性问题。
使用标准的语音识别模型作为基线,然后以几种实验方式进行调整,在新音频上进行训练。仅这一点就大大降低了单词错误率,并且对原始模型的改变相对较小,这意味着在调整到新语音时不需要大量计算。
两种错误
研究人员发现,当模型仍然被给定的音素混淆时(那个单独的语音听起来像“e”或“f”),它有两种错误。首先,它不能识别出预期的音素,因此无法识别这个词。其次,模型必须猜测说话者想要表达的音素,在两个或两个以上单词发音大致相似的情况下,可能会选择错误的音素。
第二个错误是可以智能处理的错误。也许你会说,“I’m going back inside the house”但是系统没有识别出“b”和“h”,而你也不可能说“I’m going tack inside the mouse”,人工智能系统或许能够利用它对人类语言的了解,以及你自己的声音或你说话的语境,来聪明地填补空白。
谷歌正在向ALS人员征求数据,以提高其模型的准确性,并正在为Euphonia项目制定下一步措施,例如使用音素错误来降低单词错误率。
论文:
arxiv.org/abs/1907.13511