模型:
riffusion/riffusion-model-v1
Riffusion是一个实时音乐生成应用程序,具有稳定的扩散性。
在 https://www.riffusion.com/about 上阅读有关它的介绍,并在 https://www.riffusion.com/ 上尝试它。
该存储库包含模型文件,包括:
Riffusion是一个潜在的文本到图像扩散模型,能够根据任何文本输入生成频谱图像。这些频谱图可以转换为音频剪辑。
该模型由 Seth Forsgren 和 Hayk Martiros 作为兴趣项目创建。
您可以直接使用Riffusion模型,或尝试 Riffusion web app 。
Riffusion模型是通过微调 Stable-Diffusion-v1-5 检查点创建的。在 ?'s Stable Diffusion blog 中阅读有关Stable Diffusion的介绍。
该模型仅供研究目的使用。可能的研究领域和任务包括
原始的 Stable Diffusion v1.5 是使用 LAION-5B 数据集训练的,该数据集使用了 CLIP text encoder ,这为语言(包括音乐概念)的深入理解提供了一个很好的起点。LAION团队还编制了一个来自多个一般、语音和音乐来源的出色音频数据集,我们建议使用 LAION-AI/audio-dataset 进行参考。
查看Hugging Face的 diffusers training examples 。微调需要一个包含描述短音频剪辑的频谱图像数据集。请注意,CLIP编码器能够理解并关联许多单词,即使它们从未出现在数据集中。还可以使用 dreambooth 方法获得自定义样式。
如果您在此工作基础上进行研究,请按照以下方式引用:
@article{Forsgren_Martiros_2022, author = {Forsgren, Seth* and Martiros, Hayk*}, title = {{Riffusion - Stable diffusion for real-time music generation}}, url = {https://riffusion.com/about}, year = {2022} }