模型:
runwayml/stable-diffusion-v1-5
Stable Diffusion 是一种潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像。要了解 Stable Diffusion 的工作原理,请参阅 ?'s Stable Diffusion blog 。
Stable-Diffusion-v1-5 检查点是基于 Stable-Diffusion-v1-2 检查点的权重初始化,并在"laion-aesthetics v2 5+"数据集上的512x512分辨率训练了595k步,并在文本条件的基础上进行了10%的削减,以提高 classifier-free guidance sampling 。
您可以同时使用 ?Diffusers library 和 RunwayML GitHub repository 进行操作。
from diffusers import StableDiffusionPipeline import torch model_id = "runwayml/stable-diffusion-v1-5" pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16) pipe = pipe.to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png")
要了解更详细的JAX使用说明、用例和示例,请按照说明 here 进行操作。
下载权重
按照说明 here 进行操作。
开发者:Robin Rombach、Patrick Esser
模型类型:基于扩散的文本到图像生成模型
语言:英语
许可证: The CreativeML OpenRAIL M license 是一项 Open RAIL M license ,根据 BigScience 和 the RAIL Initiative 共同开展的负责任AI许可证领域的工作进行了调整。还请参阅我们基于的 the article about the BLOOM Open RAIL license 。
模型描述:这是一个用于根据文本提示生成和修改图像的模型。它是一个 Latent Diffusion Model ,使用了固定的预训练文本编码器( CLIP ViT-L/14 ),如 Imagen paper 中建议的那样。
获取更多信息的资源: GitHub Repository , Paper 。
引用:
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
该模型仅限于研究目的。可能的研究领域和任务包括:
下面描述了不包括的用途。
注意:此部分取自 DALLE-MINI model card ,但在 Stable Diffusion v1 方面也适用。
该模型不应用于有意创建或传播会给人们带来敌对或疏远环境的图像。这包括生成人们能够预见到的令人不安、苦恼或冒犯的图像;或者传播历史上或现在的刻板印象的内容。
超出范围的使用该模型未经训练成为人物或事件的真实陈述,因此使用该模型生成此类内容超出了该模型的能力范围。
不当使用和恶意使用使用该模型生成对个人残忍的内容是对该模型的不当使用。这包括但不限于:
尽管图像生成模型的能力令人印象深刻,但它们也可能会强化或加剧社会偏见。Stable Diffusion v1 是在主要由英文描述限制的 LAION-2B(en) 数据集的子集上进行训练的。使用其他语言的社区和文化的文本和图像可能没有得到足够的考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,模型生成非英语提示内容的能力要远远低于英语提示。
该模型的预期用法是与 Diffusers 中的 Safety Checker 一起使用。此检查器通过将模型输出与已知的硬编码 NSFW 概念进行比较来工作。这些概念意在减少反向工程这个过滤器的可能性。具体而言,检查器会比较 CLIPTextModel 的嵌入空间内有害概念的类概率与每个 NSFW 概念的手工权重。
训练数据 模型开发者使用以下数据集对模型进行训练:
训练过程 Stable Diffusion v1-5 是一种潜在的扩散模型,它将自编码器与在自编码器的潜在空间中进行训练的扩散模型相结合。在训练过程中,
目前提供了六个 Stable Diffusion 检查点,训练如下。
stable-diffusion-v1-1 :在 resoltuion 256x256 上训练了 237,000 步在 laion2B-en 上。在 resoltuion 512x512 上训练了 194,000 步在 laion-high-resolution 上(来自 LAION-5B 的 170M 个样例,分辨率 ≥ 1024x1024 )。
stable-diffusion-v1-2 :从 stable-diffusion-v1-1 重新开始。在 "laion-improved-aesthetics" 上训练了 515,000 步(laion2B-en 的子集,过滤掉原始大小 ≥ 512x512 ,估计美学评分 > 5.0 ,估计水印概率 < 0.5 。水印估计来自 LAION-5B的元数据,美学评分使用了 improved aesthetics estimator 进行估计)。
stable-diffusion-v1-3 :从 stable-diffusion-v1-2 重新开始。在 "laion-improved-aesthetics" 上训练了 195,000 步,并降低了10%的文本条件以提高 classifier-free guidance sampling 。
stable-diffusion-v1-4 :从 stable-diffusion-v1-2 重新开始。在 "laion-aesthetics v2 5+" 上训练了 225,000 步,并降低了10%的文本条件以提高 classifier-free guidance sampling 。
stable-diffusion-v1-5 :从 stable-diffusion-v1-2 重新开始。在 "laion-aesthetics v2 5+" 上训练了 595,000 步,并降低了10%的文本条件以提高 classifier-free guidance sampling 。
stable-diffusion-inpainting :从 stable-diffusion-v1-5 重新开始。在512x512分辨率上 "laion-aesthetics v2 5+" 上的 inpainting 训练 440,000 步,并降低了10%的文本条件。对于 inpainting,UNet 有额外的5个输入通道(4个用于编码的掩膜图像和1个用于掩膜本身),这些通道的权重在恢复非 inpainting 检查点后进行零初始化。在训练过程中,我们生成合成掩膜,并在25%的掩膜中将所有内容遮挡。
硬件:32 x 8 x A100 GPU
优化器:AdamW
渐变累积:2
Batch:32 x 8 x 2 x 4 = 2048
学习率:预热到 0.0001 ,持续 10,000 步,然后保持恒定
使用不同的无分级指导尺度(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和50个PNDM/PLMS采样步骤对检查点进行了评估,结果如下:
使用50个PLMS步骤和来自COCO2017验证集的10000个随机提示进行评估,评估分辨率为512x512。未针对FID得分进行优化。
Stable Diffusion v1 估计排放 根据该信息,使用 Machine Learning Impact calculator 在提供的硬件、运行时间、云提供商和计算区域来估算碳足迹。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
此模型卡片由 Robin Rombach 和 Patrick Esser 撰写,并基于 DALL-E Mini model card 进行编写。