又进一步！Alexa识别对话主题的能力提高了35%

2018年12月06日由浅浅发表 247031 0

亚马逊正朝着更具响应性，情境感知的语音体验迈进，部分归功于主题建模，即识别主题以帮助更准确地响应请求。

在新的研究中，团队开发了一个原型系统，可以将Alexa的主题识别率提高多达35％。它将在12月底在希腊雅典举行的IEEE口语技术会议上发表的论文中进行描述。

亚马逊应用语音科学家Behnam Hedayatnia写道，“我们的系统使用两个额外的信息来源来确定给定话语的主题：紧接在其之前的话语，及其作为对话行为的分类。”

为了验证此AI系统，研究人员使用了2017年Alexa奖竞赛期间收集的超过10万个带注释的语音请求，该竞赛要求15个团队部署Alexa聊天机器人系统。注释者使用14种对话行为和12种主题标记（如政治，娱乐或电影，时尚，娱乐或书籍）中的一种来标记训练数据，并在命令中注明了帮助他们识别主题的关键词，例如，“Gucci是来自意大利的著名品牌”中的“品牌”和“意大利”。

主题建模系统包括三个AI架构：（1）深度平均网络（DAN），（2）DAN的变体，用于学习预测主题中指示的关键字，（3）LSTM双向长短期记忆网络。双向LSTM是一类能够学习长期依赖性的递归神经网络，它们允许神经网络结合其记忆和输入以提高预测的准确性。

对所有三个网络的输入包括语音命令，对话行为分类和会话上下文，换句话说，对话中的最后五个回合，是说话人的请求和聊天机器人的响应的组合。

DAN通过平均词嵌入来生成词嵌入和之后的句子。这些句子嵌入产生单个摘要嵌入，它被附加到当前语音命令的嵌入中，并被传递到神经网络，该神经网络学习将嵌入与主题分类相关联。

同时，ADAN构建一个矩阵，将所遇到的每个单词映射到要求识别的12个主题中的每一个，并记录注释器将特定单词与特定主题相关联的频率。同时，它嵌入来自当前语音命令和过去命令的单词。

最后，每个单词都有12个与之关联的数字，一个12维向量表明它与每个主题的相关性。与来自当前语音摘要的单词相关联的向量与来自过去摘要的向量组合，并传递到神经网络以进行分类。

在测试中，该系统的四个版本超过基线的语音识别准确度。其中一种配置的准确率达到74％，高于基线的55％。

标签：

行业语音识别 LSTM神经网络亚马逊Amazon Alexa

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软开源用于AI模型的推理引擎ONNX Runtime

下一篇华为应用利用图像识别等AI工具将书籍文字转换为手语

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）