英文

Stable Diffusion v1-5 模型卡片

Stable Diffusion 是一种潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像。要了解 Stable Diffusion 的工作原理,请参阅 ?'s Stable Diffusion blog

Stable-Diffusion-v1-5 检查点是基于 Stable-Diffusion-v1-2 检查点的权重初始化,并在"laion-aesthetics v2 5+"数据集上的512x512分辨率训练了595k步,并在文本条件的基础上进行了10%的削减,以提高 classifier-free guidance sampling

您可以同时使用 ?Diffusers library RunwayML GitHub repository 进行操作。

扩散器

from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")

要了解更详细的JAX使用说明、用例和示例,请按照说明 here 进行操作。

原始 GitHub 存储库

  • 下载权重

  • 按照说明 here 进行操作。

  • 模型详情

    用途

    直接使用

    该模型仅限于研究目的。可能的研究领域和任务包括:

    • 对有潜在生成有害内容的模型进行安全部署。
    • 探索和理解生成模型的限制和偏见。
    • 生成艺术品并在设计和其他艺术过程中使用。
    • 在教育或创意工具中应用。
    • 生成模型的研究。

    下面描述了不包括的用途。

    不当使用、恶意使用和超出范围的使用

    注意:此部分取自 DALLE-MINI model card ,但在 Stable Diffusion v1 方面也适用。

    该模型不应用于有意创建或传播会给人们带来敌对或疏远环境的图像。这包括生成人们能够预见到的令人不安、苦恼或冒犯的图像;或者传播历史上或现在的刻板印象的内容。

    超出范围的使用

    该模型未经训练成为人物或事件的真实陈述,因此使用该模型生成此类内容超出了该模型的能力范围。

    不当使用和恶意使用

    使用该模型生成对个人残忍的内容是对该模型的不当使用。这包括但不限于:

    • 生成贬低、贬损或以其他方式危害人们或其环境、文化、宗教等的图像。
    • 故意推广或传播歧视性内容或有害的刻板印象。
    • 未经个体同意进行身份冒充。
    • 在未经同意的情况下生成性内容。
    • 虚假或误导性信息
    • 严重暴力和血腥的描绘
    • 共享侵犯版权或许可协议条款的受版权或许可的素材。
    • 共享违反版权或许可协议条款的经过修改的受版权或许可的素材。

    限制和偏见

    限制

    • 该模型无法达到完美的照片写实效果。
    • 该模型无法渲染可读的文本。
    • 该模型在涉及组合性的更困难任务上表现不佳,例如渲染与“蓝色球上的红色立方体”相对应的图像。
    • 面部和人物可能无法正确生成。
    • 该模型主要使用英文标题进行训练,在其他语言上的效果不如英文提示。
    • 该模型的自编码部分具有损失性。
    • 该模型是在包含成人内容的大规模数据集 LAION-5B 上进行训练的,并且没有额外的安全机制和考虑条件下,不适合产品使用。
    • 没有使用其他措施来去重数据集。因此,我们观察到对于在训练数据中重复的图像存在一定程度的记忆。可以在 https://rom1504.github.io/clip-retrieval/ 上搜索训练数据,以可能帮助检测到被记忆图像。

    偏见

    尽管图像生成模型的能力令人印象深刻,但它们也可能会强化或加剧社会偏见。Stable Diffusion v1 是在主要由英文描述限制的 LAION-2B(en) 数据集的子集上进行训练的。使用其他语言的社区和文化的文本和图像可能没有得到足够的考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,模型生成非英语提示内容的能力要远远低于英语提示。

    安全模块

    该模型的预期用法是与 Diffusers 中的 Safety Checker 一起使用。此检查器通过将模型输出与已知的硬编码 NSFW 概念进行比较来工作。这些概念意在减少反向工程这个过滤器的可能性。具体而言,检查器会比较 CLIPTextModel 的嵌入空间内有害概念的类概率与每个 NSFW 概念的手工权重。

    训练

    训练数据 模型开发者使用以下数据集对模型进行训练:

    • LAION-2B(en)及其子集(详见下一节)

    训练过程 Stable Diffusion v1-5 是一种潜在的扩散模型,它将自编码器与在自编码器的潜在空间中进行训练的扩散模型相结合。在训练过程中,

    • 图像通过编码器进行编码,将图像转换为潜在表示。自编码器使用相对缩小因子8,将形状为 H x W x 3 的图像映射到形状为 H/f x W/f x 4 的潜在表示
    • 文本提示通过 ViT-L/14 文本编码器进行编码。
    • 文本编码器的非汇聚输出通过跨注意力与扩散模型的UNet主干相结合。
    • 损失是潜在空间中添加的噪声与 UNet 进行的预测之间的重建目标。

    目前提供了六个 Stable Diffusion 检查点,训练如下。

    • stable-diffusion-v1-1 :在 resoltuion 256x256 上训练了 237,000 步在 laion2B-en 上。在 resoltuion 512x512 上训练了 194,000 步在 laion-high-resolution 上(来自 LAION-5B 的 170M 个样例,分辨率 ≥ 1024x1024 )。

    • stable-diffusion-v1-2 :从 stable-diffusion-v1-1 重新开始。在 "laion-improved-aesthetics" 上训练了 515,000 步(laion2B-en 的子集,过滤掉原始大小 ≥ 512x512 ,估计美学评分 > 5.0 ,估计水印概率 < 0.5 。水印估计来自 LAION-5B的元数据,美学评分使用了 improved aesthetics estimator 进行估计)。

    • stable-diffusion-v1-3 :从 stable-diffusion-v1-2 重新开始。在 "laion-improved-aesthetics" 上训练了 195,000 步,并降低了10%的文本条件以提高 classifier-free guidance sampling

    • stable-diffusion-v1-4 :从 stable-diffusion-v1-2 重新开始。在 "laion-aesthetics v2 5+" 上训练了 225,000 步,并降低了10%的文本条件以提高 classifier-free guidance sampling

    • stable-diffusion-v1-5 :从 stable-diffusion-v1-2 重新开始。在 "laion-aesthetics v2 5+" 上训练了 595,000 步,并降低了10%的文本条件以提高 classifier-free guidance sampling

    • stable-diffusion-inpainting :从 stable-diffusion-v1-5 重新开始。在512x512分辨率上 "laion-aesthetics v2 5+" 上的 inpainting 训练 440,000 步,并降低了10%的文本条件。对于 inpainting,UNet 有额外的5个输入通道(4个用于编码的掩膜图像和1个用于掩膜本身),这些通道的权重在恢复非 inpainting 检查点后进行零初始化。在训练过程中,我们生成合成掩膜,并在25%的掩膜中将所有内容遮挡。

    • 硬件:32 x 8 x A100 GPU

    • 优化器:AdamW

    • 渐变累积:2

    • Batch:32 x 8 x 2 x 4 = 2048

    • 学习率:预热到 0.0001 ,持续 10,000 步,然后保持恒定

    评估结果

    使用不同的无分级指导尺度(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和50个PNDM/PLMS采样步骤对检查点进行了评估,结果如下:

    使用50个PLMS步骤和来自COCO2017验证集的10000个随机提示进行评估,评估分辨率为512x512。未针对FID得分进行优化。

    环境影响

    Stable Diffusion v1 估计排放 根据该信息,使用 Machine Learning Impact calculator 在提供的硬件、运行时间、云提供商和计算区域来估算碳足迹。

    • 硬件类型:A100 PCIe 40GB
    • 使用时间:150,000 小时
    • 云提供商:AWS
    • 计算区域:US-east
    • 排放量(功耗 x 时间 x 基于电网位置的碳排放量):11250 公斤CO2当量

    引用

        @InProceedings{Rombach_2022_CVPR,
            author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
            title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
            booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
            month     = {June},
            year      = {2022},
            pages     = {10684-10695}
        }
    

    此模型卡片由 Robin Rombach 和 Patrick Esser 撰写,并基于 DALL-E Mini model card 进行编写。