英文

Riffusion

Riffusion是一个实时音乐生成应用程序,具有稳定的扩散性。

https://www.riffusion.com/about 上阅读有关它的介绍,并在 https://www.riffusion.com/ 上尝试它。

该存储库包含模型文件,包括:

  • 一个格式化的扩散器库
  • 一个编译的检查点文件
  • 一个追踪的UNet,用于提高推断速度
  • 一个用于与Riffusion-app一起使用的种子图像库

Riffusion v1模型

Riffusion是一个潜在的文本到图像扩散模型,能够根据任何文本输入生成频谱图像。这些频谱图可以转换为音频剪辑。

该模型由 Seth Forsgren Hayk Martiros 作为兴趣项目创建。

您可以直接使用Riffusion模型,或尝试 Riffusion web app

Riffusion模型是通过微调 Stable-Diffusion-v1-5 检查点创建的。在 ?'s Stable Diffusion blog 中阅读有关Stable Diffusion的介绍。

模型详细信息

直接使用

该模型仅供研究目的使用。可能的研究领域和任务包括

  • 生成艺术品、音频,并在创意过程中使用。
  • 用于教育或创意工具的应用。
  • 生成模型的研究。

数据集

原始的 Stable Diffusion v1.5 是使用 LAION-5B 数据集训练的,该数据集使用了 CLIP text encoder ,这为语言(包括音乐概念)的深入理解提供了一个很好的起点。LAION团队还编制了一个来自多个一般、语音和音乐来源的出色音频数据集,我们建议使用 LAION-AI/audio-dataset 进行参考。

微调

查看Hugging Face的 diffusers training examples 。微调需要一个包含描述短音频剪辑的频谱图像数据集。请注意,CLIP编码器能够理解并关联许多单词,即使它们从未出现在数据集中。还可以使用 dreambooth 方法获得自定义样式。

引用

如果您在此工作基础上进行研究,请按照以下方式引用:

@article{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}