模型:
stabilityai/sd-x2-latent-upscaler
该模型卡关注由 Katherine Crowson 与 Stability AI 合作开发的基于潜在扩散的上采样器。该模型是在LAION-2B数据集的高分辨率子集上进行训练的。它是一个潜在空间中的扩散模型,可以解码为完整分辨率的图像。您可以在使用 Stable Diffusion 时将生成的潜在向量传递给上采样器,然后在标准的VAE解码之前进行上采样。或者您可以将任何图像编码为潜在空间,使用上采样器进行上采样,然后解码它。
注意:该上采样模型专门为 Stable Diffusion 设计,可对 Stable Diffusion 的潜在去噪图像嵌入进行上采样。这样可以实现非常快速的文本到图像+上采样的流水线,因为所有中间状态都可以保留在GPU上。有关详细信息,请参见下面的示例。该模型适用于所有 Stable Diffusion checkpoints
Image by Tanishq Abraham from 1236321 originating from 1237321 |
Original output image | 2x upscaled output image |
---|
使用 ?'s Diffusers library 在任何 StableDiffusionUpscalePipeline 检查点上运行潜在上采样器,将输出图像分辨率提高2倍。
pip install git+https://github.com/huggingface/diffusers.git pip install transformers accelerate scipy safetensors
from diffusers import StableDiffusionLatentUpscalePipeline, StableDiffusionPipeline import torch pipeline = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16) pipeline.to("cuda") upscaler = StableDiffusionLatentUpscalePipeline.from_pretrained("stabilityai/sd-x2-latent-upscaler", torch_dtype=torch.float16) upscaler.to("cuda") prompt = "a photo of an astronaut high resolution, unreal engine, ultra realistic" generator = torch.manual_seed(33) # we stay in latent space! Let's make sure that Stable Diffusion returns the image # in latent space low_res_latents = pipeline(prompt, generator=generator, output_type="latent").images upscaled_image = upscaler( prompt=prompt, image=low_res_latents, num_inference_steps=20, guidance_scale=0, generator=generator, ).images[0] # Let's save the upscaled image under "upscaled_astronaut.png" upscaled_image.save("astronaut_1024.png") # as a comparison: Let's also save the low-res image with torch.no_grad(): image = pipeline.decode_latents(low_res_latents) image = pipeline.numpy_to_pil(image)[0] image.save("astronaut_512.png")
结果:
512像素 Astronaut
1024像素 Astronaut
注意事项:
该模型仅供研究目的。可能的研究领域和任务包括
下面描述了不包括在内的用途。
注意:本节原始内容来自 DALLE-MINI model card ,用于 Stable Diffusion v1,但同样适用于 Stable Diffusion v2 。
该模型不应用于故意创建或传播可能为人们带来敌对或使人感到疏远的图像。包括生成人们预计会感到恶心、痛苦或冒犯的图像;或传播历史或现实中的刻板印象的内容。
超出范围的使用该模型未经过训练,无法为人或事件提供事实或真实的表示,因此使用该模型生成此类内容超出了此模型的能力范围。
误用和恶意使用使用该模型生成对个人具有残忍性的内容是对该模型的误用。包括但不限于:
虽然图像生成模型的功能令人印象深刻,但它们也可能强化或加剧社会偏见。Stable Diffusion vw主要在 LAION-2B(en) 的子集上进行训练,该子集只包含英文描述的图像。其他使用其他语言的社区和文化的文本和图像可能无法充分考虑。这会影响模型的整体输出,因为白人和西方文化通常被设定为默认值。此外,与英语提示相比,该模型在生成非英语提示的内容时的能力明显较差。Stable Diffusion v2过度反映和加剧偏见,以至于无论输入或意图如何,都应该谨慎使用。