谷歌新AI技术可将语音识别错误降低29％

2019年02月22日由胖桃发表 258398 0

语音识别发展迅速，EdgeSpeechNet等最先进的模型在去年年底的论文中指出，能够达到97％的准确率。但即便是最好的系统也会偶然发现不常见的词汇。

为了缩小差距，谷歌和加利福尼亚大学的科学家提出了一种方法，可以利用纯文本数据训练的拼写校正模型。

在论文“A Spelling Correction Model for End-to-End Speech Recognition”中，他们报告说，在使用800个词，960小时的语言建模LibriSpeech数据集的实验中，他们的技术显示，与基线相比，单词错误率（WER）相对提高了18.6%。在某些情况下，它甚至可以减少29%的错误。

目标是将一个受文本数据训练的模块纳入端到端框架，目的是纠正系统所犯的错误。具体来说，使用文本到语音（TTS）系统调查使用不成对的数据生成音频信号，这个过程类似于机器翻译中的反向翻译。

正如论文作者所解释的那样，大多数自动语音识别（ASR）系统共同训练三个组成部分：一个学习音频信号与构成语音的语言单位之间关系的声学模型，一个为单词序列分配概率的语言模型，以及一种机制，用于对声学帧和识别的符号进行对齐。

这三者都使用单个神经网络（在生物神经元之后建模的分层数学函数）和转录的音频-文本对，因此，当语言模型遇到语料库中不常出现的单词时，通常性能会下降。

然后，研究人员着手将上述拼写校正模型纳入ASR框架，一种将输入和输出句子解码为“词组”的子词单元的模型，它采用嵌入词（即映射到向量的特征）实数）并将它们映射到更高级别的表示。

他们使用纯文本数据和使用文本到语音（TTS）系统（并行WaveNet）生成的相应合成音频信号来训练LAS语音识别器，这是2017年谷歌大脑研究人员首次描述的端到端模型，然后创建一组TTS对。然后，他们教拼写纠正器纠正识别器通过给它们提供的潜在错误。

为了验证模型，研究人员训练了一个语言模型，生成了一个TTS数据集来训练LAS模型，并用错误假设来训练拼写校正模型，其中包含了来自LibriSpeech数据集的4000万个文本序列，过滤掉了仅包含单字母单词和短于90个单词的序列。结果发现，通过校正来自LAS的条目，语音校正模型可以产生一个具有更低错误率的扩展输出。

论文：

arxiv.org/pdf/1902.07178.pdf

标签：

语音识别谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇研究人员通过对人类听觉处理进行建模，以改进机器人的语音识别

下一篇 Apple收购了ML初创公司Laserlike，可帮助改进Siri个性化服务

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）