机器学习使单声道音乐更立体，更具沉浸感

2018年12月29日由浅浅发表 57483 0

立体声音响系统会让你对制作团队创建的音景中放置乐器的位置有良好的感觉。用耳机也可以自定义聆听体验，更加具有沉浸感。现在，德克萨斯大学奥斯汀分校的Ruohan Gao和Facebook Research的Kristen Grauman开发出一种机器学习系统，可以通过检查附带的视频片段来计算单声道录音中的声音方向。

一些机制可以帮助我们确定声音的来源。左边的噪音会首先传到我们的左耳，大脑用它来告诉我们声音确实来自我们的左边。

而我们面前的声音会毫无阻碍地到达耳道，但背后的声音会因我们的软骨和皮肤失真。同样，大脑运用这种生理机制来定位声音。耳朵的形状可以帮助定位上方，下方和周围发出声音。

响度也可以是三维空间中声音定位的有用指标。左边的噪音在左耳上会比右边的声音更响亮。这些信息都可以帮助大脑解决这种声音来自哪里。

精确地为单声道视频音轨重新创建这种声音位置是相当大的挑战。然而，研究人员设计了一个他们称之为2.5D声音的系统，它利用视觉线索近似模拟声音的方向，人为地扭曲左右的时间差和响度差。

研究人员首先建立了一个包含2000多个音乐片段的双耳录音数据库，附带视频。用于捕获音频和视频的记录器由一对假人耳组成，这对假耳分别围绕人头部宽度放置，每个耳道里都有一个麦克风，用来捕捉方向的变化。同时设备前面的场景是用GoPro动作摄像头记录的。

然后，用音轨训练机器学习算法，识别视频中声音的来源。然后，该算法“观看”视频并使用它学到的内容来使单声道录音失真以模拟声音方向。

“我们将输出称为2.5D视觉声音，视觉流有助于将扁平的单声道音频提升为空间化的声音，”研究人员说。

下面的视频比较了单声道音轨和2.5D操作。该系统并不完美，如果声源在视频中不可见，则无法估计声音方向，并且它无法识别不在其学习数据库中的声音。

[video width="320" height="92" mp4="http://imgcdn.atyun.com/2018/12/2.5D-Visual-Sound.mp4"][/video]

研究人员补充说，“我们计划探索将物体定位和运动结合起来的方法，并明确地模拟场景声音。”

论文：
arxiv.org/abs/1812.04204

标签：

行业人工智能未来

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 AI新书推荐，采访大集合，看专家们如何深度解读AI

下一篇 2018年度热点：AI界的那些大新闻

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）