Alexa研究人员开发了2-mic语音识别系统,该系统击败了7-mic阵列
2019年04月02日 由 yining 发表
674607
0
在语音识别方面,两个麦克风比一个好是一个公认的事实。直观地说,两个麦克风的意义在于:声波到达多个具有不同时间延迟的麦克风,可以用来增强来自某个方向的信号强度,同时减少来自其他方向的信号。然而,从历史上看,语音增强(分离语音和噪声)的问题是独立于语音识别来解决的,文献表明这种方法会产生不同的结果。
亚马逊Alexa部门的研究人员表示,他们开发了一种新颖的声学建模框架,通过统一语音增强和语音识别功能来提高框架性能。研究人员称他们的双麦克风系统模型相对于旧的七个麦克风系统,将语音识别错误率降低了9.5%。
他们将在下个月在布赖顿举行的声学、语音和信号处理国际会议上发表这一对论文(“用于远程语音识别的频域多通道声学建模”、“用于远程语音识别的多几何空间声学建模”)中描述他们的工作。
第一篇文章描述了一种多传声器方法,它取代了确定波束形成器(在传感器输出上操作的空间滤波器,以增强波的振幅)方向和用单个神经网络识别语音信号的单独的手工编码算法。亚马逊目前的回声扬声器系列可以动态调整波束形成器以适应新的声学环境。但是,通过在不同环境下的大型语料库上训练单个模型,研究人员能够去掉适应步骤。
“传统技术旨在将单个[声束]转向任意方向,但这是一种计算密集型的方法,”Alexa语音小组的语音科学家Kenichi Kumatani在一篇博客文章中解释道。“使用Echo智能扬声器,我们将多个波束形成器指向不同的方向,并确定产生最清晰语音信号的波束形成器……这就是为什么Alexa可以理解您的天气预报请求,即使电视噪音就在离你很近的地方。”
单神经网络和传统模型都将波束形成器的输出以对数滤波器组能量的形式传递给特征提取器,或者以多个不规则频段的信号能量快照进行传递。在传统模型中,它们根据背景噪声的估算进行归一化,抽取器的输出被传递给一个人工智能系统,该系统用于计算不同语音信息的短单位相对应的特征。
根据论文作者的观点,如果模型的每个组件(例如,特征抽取器和波束形成器)分别初始化,性能就会提高。他们补充说,不同的培训数据使模型能够处理不同设备类型的麦克风配置范围。
Kumatani说:“除其他优点外,这意味着新设备的ASR系统,或使用较少的设备,可以从更广泛采用的设备生成的交互数据中获益。”