Riffusion

Riffusion是一个实时音乐生成应用程序，具有稳定的扩散性。

在 https://www.riffusion.com/about 上阅读有关它的介绍，并在 https://www.riffusion.com/ 上尝试它。

代码： https://github.com/riffusion/riffusion
Web应用程序： https://github.com/hmartiro/riffusion-app
模型检查点： https://huggingface.co/riffusion/riffusion-model-v1
Discord： https://discord.gg/yu6SRwvX4v

该存储库包含模型文件，包括：

一个格式化的扩散器库
一个编译的检查点文件
一个追踪的UNet，用于提高推断速度
一个用于与Riffusion-app一起使用的种子图像库

Riffusion v1模型

Riffusion是一个潜在的文本到图像扩散模型，能够根据任何文本输入生成频谱图像。这些频谱图可以转换为音频剪辑。

该模型由 Seth Forsgren 和 Hayk Martiros 作为兴趣项目创建。

您可以直接使用Riffusion模型，或尝试 Riffusion web app 。

Riffusion模型是通过微调 Stable-Diffusion-v1-5 检查点创建的。在 🤗's Stable Diffusion blog 中阅读有关Stable Diffusion的介绍。

模型详细信息

开发者：Seth Forsgren，Hayk Martiros
模型类型：基于扩散的文本到图像生成模型
语言：英语
许可证： The CreativeML OpenRAIL M license 是 Open RAIL M license ，改编自 BigScience 和 the RAIL Initiative 共同推进的负责任AI许可证领域的工作。请参阅 the article about the BLOOM Open RAIL license ，我们的许可证是基于该许可证的。
模型描述：这是一个可以用于基于文本提示生成和修改图像的模型。这是一个 Latent Diffusion Model ，使用了一个固定的预训练文本编码器（ CLIP ViT-L/14 ），如 Imagen paper 中建议的那样。

直接使用

该模型仅供研究目的使用。可能的研究领域和任务包括

生成艺术品、音频，并在创意过程中使用。
用于教育或创意工具的应用。
生成模型的研究。

数据集

原始的 Stable Diffusion v1.5 是使用 LAION-5B 数据集训练的，该数据集使用了 CLIP text encoder ，这为语言（包括音乐概念）的深入理解提供了一个很好的起点。LAION团队还编制了一个来自多个一般、语音和音乐来源的出色音频数据集，我们建议使用 LAION-AI/audio-dataset 进行参考。

微调

查看Hugging Face的 diffusers training examples 。微调需要一个包含描述短音频剪辑的频谱图像数据集。请注意，CLIP编码器能够理解并关联许多单词，即使它们从未出现在数据集中。还可以使用 dreambooth 方法获得自定义样式。

引用

如果您在此工作基础上进行研究，请按照以下方式引用：

@article{Forsgren_Martiros_2022,
  author = {Forsgren, Seth* and Martiros, Hayk*},
  title = {{Riffusion - Stable diffusion for real-time music generation}},
  url = {https://riffusion.com/about},
  year = {2022}
}

作者:

Riffusion

数据集大小:

20.29 GB