模型:
stabilityai/stable-diffusion-2-1-base
该模型卡片关注 Stable Diffusion v2-1-base 模型。
该 stable-diffusion-2-1-base 模型使用 stable-diffusion-2-base (512-base-ema.ckpt) 进行了微调,额外进行了 220k 步的训练,并在相同的数据集上使用 punsafe=0.98。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
使用 ?'s Diffusers library 运行 Stable Diffusion 2,以简单高效的方式进行。
pip install diffusers transformers accelerate scipy safetensors
运行流程(如果不更改调度程序,则将使用默认的 PNDM/PLMS 调度程序运行,在此示例中,我们将其替换为 EulerDiscreteScheduler):
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler import torch model_id = "stabilityai/stable-diffusion-2-1-base" scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler") pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16) pipe = pipe.to("cuda") prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png")
备注:
该模型仅用于研究目的。可能的研究领域和任务包括:
不被包括在内的使用方法如下所述。
注意:此部分最初摘自 DALLE-MINI model card ,用于 Stable Diffusion v1,但对 Stable Diffusion v2 同样适用。
不应使用该模型有意创造或传播会给人带来敌意或隔离环境的图像。包括生成人们可以预见到会感到不安、痛苦或冒犯的图像;或者宣传历史上或当前的刻板印象的内容。
不包括在内的使用方法
该模型训练时并非用于对人或事件进行准确的真实表示,因此使用该模型生成此类内容超出了该模型的能力范围。
不正确使用和恶意使用
使用该模型生成对个人具有残忍性的内容是对该模型的不正确使用。包括但不限于:
虽然图像生成模型的能力令人印象深刻,但它们也可能会强化或加剧社会偏见。Stable Diffusion vw 主要在局限为英文描述的 LAION-2B(en) 子集上进行训练。来自使用其他语言的社群和文化的文本和图像可能没有得到充分考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,模型生成非英文提示的内容的能力明显较差。Stable Diffusion v2 在复制和加剧偏见方面存在严重问题,因此无论输入或其意图如何,观众都需要谨慎对待。
训练数据:模型开发者使用以下数据集训练模型:
训练过程:Stable Diffusion v2 是一个潜在漫化模型,它将自编码器与在自编码器的潜在空间中进行训练的漫化模型相结合。在训练过程中,
我们目前提供以下各个版本的检查点:
使用不同的无分类器引导比例(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和 50 步的 DDIM 采样步骤,展示了检查点的相对改进:
使用 50 个 DDIM 步骤和 COCO2017 验证集中的 10000 个随机提示进行评估,在 512x512 分辨率上进行评估。不针对 FID 分数进行优化。
Stable Diffusion v1 估计的排放 基于该信息,我们使用 Machine Learning Impact calculator 在 Lacoste et al. (2019) 中提供的内容估计以下 CO2 排放量。硬件、运行时间、云供应商和计算区域被用于估计碳影响。
@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }
该模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 编写,基于 Stable Diffusion v1 和 DALL-E Mini model card 。