MIT开发机器学习系统，同时处理语音和对象识别

2018年09月18日由浅浅发表 458739 0

麻省理工学院的计算机科学家已经开发出一种系统，该系统基于图像的口头描述学习识别图像内的物体。给定图像和音频标题，模型将实时突出显示所描述图像的相关区域。

与当前的语音识别技术不同，该模型不需要手动转录和对其训练的示例进行注释。相反，它直接从原始图像中记录的语音剪辑和对象中学习单词，并将它们相互关联。

该模型目前只能识别几百种不同的单词和对象类型。但是研究人员希望有一天他们的语音对象识别技术可以节省大量的手工劳动时间，并在语音和图像识别方面有新的进展。

例如，Siri和Google Voice等语音识别系统需要转录数千小时的语音录音。使用这些数据，系统学习用特定单词映射语音信号。当新术语进入我们的词典时，这种方法尤其成问题，并且系统必须重新训练。

“我们希望以更自然的方式进行语音识别，利用人类可以使用的其他信号和信息，但机器学习算法通常无法访问。我们的想法是以类似于让孩子走遍世界并叙述你所看到的东西的方式训练模型，”计算机科学与人工智能实验室（CSAIL）和口语系统研究员David Harwath说。Harwath与其他人共同撰写了一篇描述此模型的论文。

在这篇论文中，研究人员以一个金发和蓝眼睛的年轻女孩的图像为例展示了他们的模型，女孩穿着一件蓝色的连衣裙，背景是一个带有红色屋顶的白色灯塔。该模型学会了将图像中的哪些像素与“女孩”，“金发”，“蓝眼睛”，“蓝色礼服”，“白灯塔”和“红色屋顶”相对应。当一个音频标题被叙述时，这个模型会高亮显示图像中的每一个对象。

一个有希望的应用是学习不同语言之间的翻译，而不需要双语注释器。在全世界的7000种语言中，只有100种具有足够的语音识别转录数据。然而，考虑两种不同语言的说话者描述相同图像的情况。如果模型从语言A学习与图像中的对象相对应的语音信号，并且学习语言B中与那些相同对象相对应的信号，则可以假设这两个信号和匹配的单词可以对应翻译。

“这有一种Babel Fish型机制的潜力，”Harwath说，他指的是“银河系漫游指南”中的虚构生活耳机，它将为佩戴者翻译不同的语言。

CSAIL的合著者是：研究生Adria Recasens；访问学生Didac Suris；前研究员Galen Chuang; Antonio Torralba，电气工程和计算机科学教授，也是MIT-IBM Watson AI Lab的负责人；和CSAIL高级研究科学家及领导Spoken Language Systems Group的James Glass。

视听联合

这项工作扩展了Harwath，Glass和Torralba开发的早期模型，该模型将语音与主题相关图像组相关联。在之前的研究中，他们将来自分类数据库的场景图像放在众包Mechanical Turk平台上。然后他们让人们将这些图像描述为对孩子的叙述，大约10秒钟。他们汇集了20多万对图像和音频字幕，分为数百种不同的类别，如海滩，商场，城市街道和卧室。

然后，他们设计了一个由两个独立的卷积神经网络（CNN）组成的模型。一个处理图像，一个处理频谱图，音频信号随时间变化的视觉表示。模型的最高层计算两个网络的输出，并将语音模式与图像数据进行映射。

例如，研究人员将提供模型标题A和图像A，这是正确的。然后，他们会给它一个带有图像A的随机标题B，这是一个不正确的配对。在将数千个错误字幕与图像A进行比较之后，模型学习与图像A对应的语音信号，并将这些信号与字幕中的字相关联。如2016年的一项研究所述，该模型学会了例如挑选出与“水”相对应的信号，并用水的信号检索图像。

Harwath表示，“但它并没有提供一种方式来说明，这是一个确切的时间点，有人说了一个特定的词，指的是特定的像素点。”

制作匹配图（matchmap）

在新论文中，研究人员修改了模型，将特定单词与特定的像素块相关联。研究人员在同一个数据库上训练了该模型，但总共有400000个图像标题对。他们提供了1000个随机对进行测试。

在训练中，模型同样给出了正确和不正确的图像和标题。但这一次，图像分析CNN将图像划分为由像素块组成的单元网格。音频分析CNN将频谱图分成例如一秒的片段以捕获一个或两个字。

使用正确的图像和标题对，模型将网格的第一个单元格与第一个音频段匹配，然后将该相同的单元格与第二个音频段匹配，依此类推，直到每个网格单元格和所有网格单元格时间段匹配。对于每个单元和音频段，它提供相似性分数，取决于信号与对象的对应程度。

这种方法的问题在于，在训练期间，模型无法访问语音和图像之间的任何真实对齐信息。“该论文的最大贡献，是证明这些跨模式（音频和视觉）对齐可以通过简单地教导网络哪些图像和字幕属于一起而哪些没有来自动推断。”

研究者将语音标题的波形与图像像素之间的自动学习关联称为“匹配图”。在对数千个图像标题对进行训练之后，网络将这些对齐缩小到表示该匹配图中特定对象的特定单词。

Harwath说，“这有点像大爆炸，物质真正分散，然后合并成行星和恒星，预测开始分散在各处，但是，当你进行训练时，它们会聚合成一个对列，代表了语词和视觉对象之间有意义的语义基础。”

标签：

视觉识别语音识别 MIT麻省理工学院

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 MIT研究：机器学习系统通过观察几个关键帧中的变化，预测接下来的活动

下一篇谷歌助手投资者项目支持Maison Me的服装定制AI

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）