DeepMind开发唇读AI以帮助识别语音，效果优于专业唇读者

2018年08月01日由浅浅发表 939514 0

对于数百万失聪者来说，唇读可以提供一个窗口，可以跟上对话。但这种做法很难，结果往往不准确。现在，DeepMind研究人员报告一种新的AI程序，该程序的性能优于专业的唇读者和迄今为止最好的AI，其错误率仅为之前最佳算法的一半。如果完善并集成到智能设备中，这种方法可以让每个人都懂唇读。

编写可以阅读唇语的计算机代码令人抓狂。因此，在新的研究中，科学家转向了机器学习，让计算机从数据中学习。他们为他们的系统提供了数千小时的视频和成绩单，让计算机自己解决了这个问题。

研究人员开始使用14万个小时的YouTube视频，让人们在各种情况下进行交谈。然后，他们设计了一个程序，通过每个音素的嘴部动作或注释的单词声音创建几秒钟的剪辑。该程序过滤掉了非英语语音，非语言面孔，低质量视频和未直接拍摄的视频。然后，他们裁剪了嘴巴周围的视频。这产生了近4000小时的录像，包括超过127000个英文单词。

哥伦比亚大学的计算机科学家Hassan Akbari说，这个过程和由此产生的数据集比同类产品大7倍，对于任何想要训练类似系统来阅读嘴唇的人来说都是“重要且有价值的”。

该过程部分依赖于神经网络，AI算法包含许多连接在一起的简单计算元素，这些元素以类似于人脑的方式学习和处理信息。当团队为节目提供未标记的视频时，这些网络会产生裁剪的嘴巴动作片段。系统中的下一个程序，也使用了神经网络，拍摄了这些剪辑，并为每个视频帧提供了可能的音素列表及其概率。最后一组算法采用了可能的音素序列并生成了英语单词序列。

经过训练，研究人员用37分钟的视频测试了他们的系统。他们发布在arXiv网站上的一篇论文中报告说，错误率仅为41％。这可能听起来不是很多，但最好的以前的计算机方法，专注于单个字母而不是音素，单词错误率为77％。在同一项研究中，专业的唇读者错误率为93％（尽管在现实生活中他们仍然有语境和肢体语言，这有助于读唇）。

该程序理解音素可能看起来不同，具体取决于之前和之后所说的内容。（例如，嘴里的形状不同于“boot”中的“t”而不是“beet”中的“t”）。系统有单独的阶段来预测嘴唇的音素和预测音素中的单词。这意味着如果你想教系统识别新的词汇单词，你需要重新训练最后一个阶段。

Akbarni表示，将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。这样的翻译也可以帮助那些不能说话的人，例如声带受损。对于其他人来说，它可以简单地帮助解析聊天。

这种技术也可应用于其他程序，例如分析安全视频，解释历史镜头，或在音频下降时听到Skype伙伴的语音。新的人工智能方法甚至可以回答世界上最大的一个谜团：在2002年世界杯决赛中，法国足球运动员齐达内被驱逐出局，因为他猛烈地撞击对手。他显然是被垃圾话引起的，他说了什么？我们也许可以解开谜底了。

标签：

视觉识别计算机视觉

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇亚马逊人脸识别错误地将28名国会议员匹配为罪犯

下一篇 LG首席技术官详解公司的AI优先策略

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）