Meta发布AI音乐模型MusicGen
2023年06月13日 由 Camellia 发表
444872
0
与Riffusion、Mousai、MusicLM和Noise2Music等其他音乐模型相比,MusicGen在客观和主观指标方面表现更优异。
Meta的MusicGen是一个AI模型,利用Transformer架构根据文本提示生成新的音乐作品。它具有使生成的音乐与现有的旋律保持一致的能力,为音乐创作提供一种多功能和创新性的方法。
与语言模型类似,MusicGen预测的是音乐作品的下一节,而不是句子中的下一个字符。这使它能够产生连贯和有结构的音乐作品。
使用Meta的EnCodec音频标记器将用于训练的音频数据分解为更小的组件。这种方法允许模型并行处理标记,使其在生成音乐时高效快速。
训练过程涉及使用一个包含2万小时的授权音乐数据集,其中包括来自内部数据集的1万首高质量音乐曲目,以及来自Shutterstock和Pond5的音乐数据。这个广泛的训练数据集确保MusicGen能够访问各种各样的音乐风格和作品。
MusicGen的一个关键特点是它能够处理文本和音乐提示。文本提示设置基本样式,然后将其与音频文件中的旋律相匹配。例如,通过将描述特定音乐风格的文本提示与一首著名作品的旋律相结合,MusicGen可以生成反映所需风格的新音乐。
需要注意的是,虽然MusicGen可以根据特定的提示提供生成音乐的大致指导,但它不能精确控制旋律的方向或在不同风格中听到旋律的能力。生成的输出作品是创意诠释而不是完美复制。
在性能方面,研究人员尝试了不同大小的模型,从3亿到33亿个参数不等。他们发现,较大的模型通常会产生更高质量的音频,但是15亿个参数的模型被人类评估者评为最佳。而33亿个参数的模型在准确匹配文本输入和音频输出方面表现突出。
与Riffusion、Mousai、MusicLM和Noise2Music等其他音乐模型相比,MusicGen在音乐与文本之间的匹配度以及作曲的可信度等客观和主观指标上表现得更加优异。总体而言,MusicGen的排名高于谷歌的MusicLM,并且它可能是音乐界的StableDiffusion时刻。
Meta已经在GitHub上以开源方式发布了MusicGen的代码和模型,允许研究人员和商业用户使用和利用这项技术。这一举动鼓励进一步发展、合作和创新,推动AI生成音乐领域的发展。此外,MusicGen的演示也可在Huggingface平台上体验其功能。
来源:https://analyticsindiamag.com/meta-releases-stablediffusion-for-music-musicgen/