NVIDIA最新深度学习模型：根据音乐自动编舞

2019年12月11日由 KING 发表 914749 0

NVIDIA研究人员与加利福尼亚大学、默塞德大学合作开发了一种基于深度学习的模型，该模型可以自动编排多样化、风格一致并与节拍匹配的新舞蹈动作。

NVIDIA研究人员在本周于2019年发表的论文中指出：“这是一项具有挑战性但有趣的生成任务，具有协助和扩展艺术和体育内容创作的潜力，例如文艺表演，艺术体操和花样滑冰。'' 该工作的核心是分解到合成的框架，该框架首先学习如何移动，然后学习如何组成。

在自上而下的分解阶段，团队使用运动节拍检测器对从实际舞蹈序列中分割出的舞蹈单元进行归一化。然后，他们训练DU-VAE对舞蹈单元进行建模。在自下而上的作曲阶段，给定一对音乐和舞蹈，团队利用MM-GAN学习如何根据给定音乐组织舞蹈单元。在测试阶段，研究人员从输入音乐中提取样式和节拍，然后以循环方式合成一系列舞蹈单元，最后，将节拍整形器应用于生成的舞蹈单元序列以渲染输出的舞蹈。

为了训练系统中使用的生成对抗网络，团队收集了三个代表性舞蹈类别的舞蹈视频，包括芭蕾舞，尊巴舞和嘻哈。团队总共获得了361000多个剪辑或大约71个小时的舞蹈镜头。

对于姿势处理，该团队使用了OpenPose，这是由卡耐基梅隆大学开发的一种开源，实时多人系统，可以共同检测单个图像上的人体，手部面部和脚部关键点。

[video width="1152" height="720" mp4="http://imgcdn.atyun.com/2019/12/Dancing-to-Music-NeurIPS-2019.mp4"][/video]

这项工作是使用PyTorch深度学习框架和NVIDIA V100 GPU进行的。为了进行推断，本文使用了培训期间使用的相同GPU。在以后的工作中，团队计划增加更多的舞蹈风格，例如流行舞和伴侣舞。研究人员在论文中说道：“在这项工作中，我们提出通过分解到组合学习框架来合成音乐舞蹈。在从上到下的分解阶段，我们将教模型如何产生和分离基本的舞蹈单元。在从下到上的合成阶段，我们指导以输入音乐为条件，有意义地构成基本舞蹈动作的模式。我们利用运动节拍和音乐节拍，使生成的舞蹈与伴奏的舞蹈在时间上保持一致的音乐。大量的定性和定量评估表明，合成的该方法不仅逼真多样，而且具有风格一致性和节拍匹配性。在未来的工作中，我们会继续收集和吸收更多的舞蹈风格，如流行跳舞和搭档跳舞”。

源代码和模型已在GitHub上发布。

标签：

语音识别深度学习模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇使用人工神经网络和人工蜂群优化进行语音识别

下一篇微软的FastSpeech AI加速真实声音的生成

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）