亚马逊最新AI系统将语音识别错误率降低了6.2%
2019年08月30日 由 KING 发表
910856
0
Alexa的核心是能够将语音转换为文本的自动语音识别系统,其中一个组件是由模型组成的,它可以预测在一系列单词之后哪个单词会出现。它们通常是一次性识别n个单词,这意味着它们能计算出在n-1个单词之后下一个单词是哪一个的概率。 但是像这样的网络体系结构由于对远程学习有很强的依赖性,并且它们不能从多个语料库中同时摄取数据,因此想要让模型完全融入语音识别系统异常困难。
这就是为什么亚马逊Alexa的研究人员研制出了这种更适用于语音识别技术的人工智能模型。在他们发表的一篇博客文章和附带的论文(ASR的可伸缩多语料库神经语言模型)中,他们声称该模型可以使语音识别的错误率降低6.2%。研究人员通过建立领域内和领域外数据集的传统模型来解决数据稀缺的问题,这些模型是线性组合的,所以它们能够给每个语料库分配一个分数来衡量其与域内数据的相关性,来达到补充稀缺数据集的目的。然后他们应用了转移学习技术,这是一种把,来使人工智能模型成功接收数据。
接下来,研究人员通过一个带有n个单词语言模型的语音识别器传递数据,利用人工智能模型对预测结果进行细化。,他们使用人工智能模型生成合成数据,为一次性通过传统模型提供数据资源。
数据资源中的样本是成对的词,而不是单个词,其中一个词是真正的目标,而另一个词是随机选择的。该模型的任务是通过预测目标词出现的的概率来进行区分。研究人员最后量化了人工智能模型的权重,以进一步提高其效率。该权重是指系统内节点的突触强度,这些节点从其他节点接收数据,并在将其传递给其他节点之前对其进行转换。量化考虑特定变量可以接受的全部值范围,并将其平均拆分为固定数量的间隔,这样每一个间隔内的所有值都是一样的。据研究小组称,该人工智能模型在多数情况下可以使语音处理时间不超过285毫秒,有时候甚至可以将处理时间压缩到65毫毛之内。
也许在将来,我们接收到的语音消息就可以迅速准确的转换成文字而不用一秒一秒的听完,也不用担心在不方便听语音消息的时候错过重要的信息,这一切都得益于人工智能技术,相信如果人工智能广泛的应用到其它领域,我们的生活将会越来越好!