亚马逊最新AI系统将语音识别错误率降低了6.2％

2019年08月30日由 KING 发表 911053 0

Alexa的核心是能够将语音转换为文本的自动语音识别系统，其中一个组件是由模型组成的，它可以预测在一系列单词之后哪个单词会出现。它们通常是一次性识别n个单词，这意味着它们能计算出在n-1个单词之后下一个单词是哪一个的概率。但是像这样的网络体系结构由于对远程学习有很强的依赖性，并且它们不能从多个语料库中同时摄取数据，因此想要让模型完全融入语音识别系统异常困难。

这就是为什么亚马逊Alexa的研究人员研制出了这种更适用于语音识别技术的人工智能模型。在他们发表的一篇博客文章和附带的论文(ASR的可伸缩多语料库神经语言模型)中，他们声称该模型可以使语音识别的错误率降低6.2％。研究人员通过建立领域内和领域外数据集的传统模型来解决数据稀缺的问题，这些模型是线性组合的，所以它们能够给每个语料库分配一个分数来衡量其与域内数据的相关性，来达到补充稀缺数据集的目的。然后他们应用了转移学习技术，这是一种把前一任务开发的模型重新定为第二个任务模型的起点的方法，来使人工智能模型成功接收数据。

接下来，研究人员通过一个带有n个单词语言模型的语音识别器传递数据，利用人工智能模型对预测结果进行细化。为了让传统模型不阻拦数据的传输，他们使用人工智能模型生成合成数据，为一次性通过传统模型提供数据资源。

数据资源中的样本是成对的词，而不是单个词，其中一个词是真正的目标，而另一个词是随机选择的。该模型的任务是通过预测目标词出现的的概率来进行区分。研究人员最后量化了人工智能模型的权重，以进一步提高其效率。该权重是指系统内节点的突触强度，这些节点从其他节点接收数据，并在将其传递给其他节点之前对其进行转换。量化考虑特定变量可以接受的全部值范围，并将其平均拆分为固定数量的间隔，这样每一个间隔内的所有值都是一样的。据研究小组称，该人工智能模型在多数情况下可以使语音处理时间不超过285毫秒，有时候甚至可以将处理时间压缩到65毫毛之内。

也许在将来，我们接收到的语音消息就可以迅速准确的转换成文字而不用一秒一秒的听完，也不用担心在不方便听语音消息的时候错过重要的信息，这一切都得益于人工智能技术，相信如果人工智能广泛的应用到其它领域，我们的生活将会越来越好！

标签：

行业人工智能语音识别

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Facebook成立人工智能语言研究联盟，以解决自然语言处理方面的挑战。

下一篇 Magic Leap AR眼镜被怼炒作，目前AR技术落地仍困难重重

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）