AI“贝多芬”诞生了？

2019年10月14日由 sunlei 发表 891533 0

音乐是艺术，音乐也是一门生意。如今，音乐这门生意越发引起商业巨头的关注。曾经，各音乐平台比的是曲目数量，艺人进驻数量，后来则更看重独家版权。现在，以深度神经网络为代表的AI技术逐渐逼近落地，放眼全球，音乐平台的AI大战一触即发。

2016年，谷歌大脑推出Magenta项目，从早期的NSynth神经网络音频合成算法到如今从残缺片段中恢复巴赫音乐的Coconet机器学习模型，更多以学术研究为导向。

世界三大音乐版权商之一的索尼，在音乐内容本身上占据了极大的优势局面。2016年，索尼计算机科学实验推出的大型歌曲和风格数据库Flow Machines，创作出了“披头士”风格的旋律。

谷歌与索尼旗下都拥有相应的流媒体产品，如YouTube音乐服务和索尼精选Hi-Res。二者相似的是，流媒体或将颠覆传统唱片公司和词曲版权代理的地位，它们势必要抢占一个新的产业协作模式“领头羊”。不同之处在于，索尼更需要寻找音乐版权业务收入放缓后的下一个增长点。

智能音箱的普及下，谷歌还能以自家的智能音箱Home为核心，借此拉动智能家居生态，但依靠低价补贴以吸引消费者的智能音箱走势如今并不理想，未来终究依赖智能交互和整个场景的覆盖。

面向中国市场的微软“小冰”，如今已成长到第七代，基于Avatar Framework人工智能框架，除了智能对话、语音交互外，还主打模拟人类真声、写词作曲。2018年，微软小冰也提出了Dual AI半开放生态的战略，并与多家国内公司达成平台化战略，但仍未勾勒出清晰的商业逻辑。

一心野望海外市场的字节跳动，在完成对初创公司Jukedeck的收购后，又拿到了印度两大唱片公司T-Series和Times Music的音乐版权，试图在旗下TikTok短视频产品中利用神经网络合成音乐。短视频承载了AI作曲实现大规模音乐的有效途径，或许能缓解其在音乐版权上的压力。

目前来看，谷歌、索尼、微软小冰、字节跳动正全面发力AI，但落到AI音乐这个层次上，却是参差不齐的。早期研究人员更多是让计算机模仿现有的音乐片段，通过分析其中的规律来制作音乐旋律；AI创作音乐的不同之处在于，能让计算机真正通过学习大量音乐片段，“自动”创作出相对复杂且富有故事性的乐曲。这个方向上，谷歌、索尼早早开始AI音乐创作性的探索；相比之下，被字节跳动收购的Jukedeck则更多停留在模仿阶段，只能作为音乐流水线上的批量生产工具。

一定意义上，技术的进步推动着音乐产业的每一次进步，从最早的CD唱片到如今的AI音乐，音乐的生产、分发和消费形式呈现明显的迭代升级。据国际唱片业协会（IFPI）报告数据，2018年全球音乐市场收入同比增长9.7%，达到191亿美元。这对于谋求业务深层次进化的科技巨头来讲，最终能否取胜将取决于对先机的把握。更重要的是，以AI驱动的音乐市场变革将会随着巨头们的频繁动作而掀起新一轮的竞争。

AI正影响全球企业的竞争格局，音乐产业也进入由AI激活多元化价值的关键时期。

如今， AI在音乐方面展现出的实力，已远超人们的想象

全球首部AI交响变奏曲《我和我的祖国》，10月11日已由深圳交响乐团全球首演，它的出品方是中国平安人工智能研究院。

该作品运用平安首创的AVM自动变奏体系，基于平安AI团队积累的海量历史音乐作品数据，体系化的音乐标签工程，系统化的自动变奏、音乐评价、专家规则模型，通过深度学习和强化学习融合的AI技术，以《我和我的祖国》《在希望的田野上》等经典曲目为基础，完成了涵盖五个变奏段落的人工智能交响曲创作。该曲目以中国近现代发展史为脉络，表现了自鸦片战争至今中华民族波澜壮阔的发展历程。

整部交响曲时长12分钟，你可以听到风琴、小提琴等多种音色，还有主旋律、伴奏、鼓点节拍多个不同的声部，整体非常丰富，一般人根本听不出来是AI作的曲，就好像专业的人类音乐家作品一样。

历时4个月，用70余万首乐曲辅助AI训练

区别于目前AI作曲更多停留在单旋律、短篇幅的乐曲形态，中国平安的此次尝试是全球范围内首次运用人工智能技术创作多声部、广维度，同时具备复杂性和经典传承性的长篇幅交响乐曲作品，创作过程中开拓性地运用了多重技术模型，并首创了基于本次交响曲研发出的AVM自动变奏模型。具体而言，平安基于海量历史音乐作品的数据库和体系化的音乐标签工程，通过深度学习和强化学习融合AI技术，运用自动变奏模型、音乐评价模型、专家规则系统，拆解乐曲音符组合空间，优选最佳音乐片段，从而完成本次创作。

作为AI作曲学习的数据基础，平安搭建了包含歌曲库、创作规则库、歌词素材库、音乐评论库、人声声源库和乐器声源库六大数据库，囊括了百万量级作曲素材。本次AI交响变奏曲的创作，运用了其中70万余首乐曲进行结构化训练，包含古典音乐、红歌、民歌等多类题材作品。

同时，创作团队依据经典作曲理论进行标签内容的设定，打造了海量维度的音乐标签体系，包含情绪、风格、主题、发展手法、和声、曲式、对位、配器、调性、调式、拍号等各类音乐元素。值得注意的是，平安还在基于人工精选数据集开发了自动标注分析系统，尝试应用AI技术对音乐音频进行自动分析。

在模型运用层面，AI交响变奏曲《我和我的祖国》运用了平安首创的AVM自动变奏模型。首先在节奏、和声、织体、配器等方面构建专家变奏规则库进行基础模型的训练。而后采用深度学习和强化学习联合方案，根据音乐创作理论描述规则进行基础模型训练，利用深度学习技术对音乐作品实现多维度的特征学习与提取，再结合强化学习技术让机器初步掌握人类作曲的思考逻辑，学习乐曲变奏手法。

对机器进行深度学习和强化学习训练的还有音乐评价模型，即基于大量作曲家的作品学习所构建的评价网络。众所周知，乐曲是否悦耳的评价标准相对主观，然而作曲规则却在音乐发展中逐步确立，形成了相对客观的行业标准。因此，乐曲创造的过程中，需要在遵守主流审美这一选取最佳音乐片段原则的同时，兼顾作曲专家的评价标准。同时，为防止AI作曲生成过于自由，平安在人工智能乐曲创作的过程中融入了包含和声约束、对位约束、曲式结构约束等规则在内专家规则，让AI作曲无限靠近乐曲原本体裁，并具备时代传承的经典性。

总体看来，《我和我的祖国》AI交响变奏曲的诞生，不仅是基于AI的技术层面，结构化层面和音频分析层面的探索，也依靠专业的音乐层面理解，通过把人类的历史上的优秀的作品做深度学习，训练AI模型。平安AI作曲创作团队不断用AI的算法去尝试迁移，生成各种各样风格类型的变奏曲，再对这些变奏曲进行专业评判，并最终通过大型的管弦乐团进行现场呈现。AI的创作和人类的演绎最终以这种方式融合在了一起，这也预示着人工智能技术在艺术领域的深入再次大幅迈进，技术边界不断突围。

我们还看到，在新中国成立70周年的长篇卷轴上，我国的多项技术曾都带来过革命性的突破。比如早期基于控制论的核技术，到打破封锁的超级计算机技术，再到载人航天卫星技术，均让国家实力大幅跃升。

走过工业化和信息化的70年后，我们进入了崭新的智能化时代，平安《我和我的祖国》AI交响变奏曲克服了技术壁垒，某种程度上，也将人工智能技术带进了崭新领地，势必会在伟大历史节点上留下其浓墨重彩的一笔。

标签：

行业深度学习人工智能 AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇使用AI为驾驶员提供先进的汽车安全系统

下一篇 AR光栅波导技术，科幻未来正在逼近

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）