模型:

naclbit/trinart_stable_diffusion_v2

英文

请注意!

这个模型不是TrinArt上那个19.2M张图片的字符模型,而是原始Trin-sama推特机器人模型的改进版本。该模型旨在尽可能保留原始SD的美感,同时使模型更接近动漫/漫画风格。

其他TrinArt模型可在以下找到:

https://huggingface.co/naclbit/trinart_derrida_characters_v2_stable_diffusion

https://huggingface.co/naclbit/trinart_characters_19.2m_stable_diffusion_v1

扩散器

该模型已由 ayan4m1 转换为扩散器,并可以轻松从分支之一运行:

  • revision="diffusers-60k" 用于训练了60000个步骤的检查点,
  • revision="diffusers-95k" 用于训练了95000个步骤的检查点,
  • revision="diffusers-115k" 用于训练了115000个步骤的检查点。

更多信息,请参阅"Three flavors"部分。

Gradio

我们还支持一个带有扩散器的 Gradio web UI,可在colab笔记本中运行:

文本到图像示例

# !pip install diffusers==0.3.0
from diffusers import StableDiffusionPipeline

# using the 60,000 steps checkpoint
pipe = StableDiffusionPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-60k")
pipe.to("cuda")

image = pipe("A magical dragon flying in front of the Himalaya in manga style").images[0]
image

如果您想在更快的速度或者在不同的硬件上运行流程,请参阅 optimization docs

图像到图像示例

# !pip install diffusers==0.3.0
from diffusers import StableDiffusionImg2ImgPipeline
import requests
from PIL import Image
from io import BytesIO

url = "https://scitechdaily.com/images/Dog-Park.jpg"

response = requests.get(url)
init_image = Image.open(BytesIO(response.content)).convert("RGB")
init_image = init_image.resize((768, 512))

# using the 115,000 steps checkpoint
pipe = StableDiffusionImg2ImgPipeline.from_pretrained("naclbit/trinart_stable_diffusion_v2", revision="diffusers-115k")
pipe.to("cuda")

images = pipe(prompt="Manga drawing of Brad Pitt", init_image=init_image, strength=0.75, guidance_scale=7.5).images
image

如果您想在更快的速度或者在不同的硬件上运行流程,请参阅 optimization docs

稳定扩散 TrinArt/Trin-sama AI finetune v2

trinart_stable_diffusion 是一个通过约40000个各种高分辨率的漫画/动漫风格图片进行了8个epochs微调的SD模型。这是与Twitter机器人@trinsama( https://twitter.com/trinsama )使用的相同模型。

Twitterボット「とりんさまAI」@trinsama( https://twitter.com/trinsama )で使用しているSDのファインチューン済モデルです。一定のルールで選別された約4万枚のアニメ・マンガスタイルの高解像度画像を用いて約8エポックの訓練を行いました。

第二版

V2的检查点使用了辍学(dropouts),增加了1万张图片,并使用了一种新的标签策略,并进行了更长时间的训练以改善结果,同时保留了原始的美感。

バージョン2は画像を1万枚追加したほか、ドロップアウトの適用、タグ付けの改善とより長いトレーニング時間により、SDのスタイルを保ったまま出力内容の改善を目指しています。

三种版本

如果对于样式微调太多,可以使用步骤60000的检查点来代替步骤115000/95000的检查点。

ステップ115000/95000のチェックポイントでスタイルが変わりすぎると感じる場合は、ステップ60000のチェックポイントを使用してみてください。

img2img

如果您想使用latent-diffusion库中的stock ddim img2img脚本运行此模型,则必须将use_ema设为False。

latent-diffusion的scripts文件夹中的ddim img2img要与此模型一起运行,必须将use_ema设置为False。

硬件
  • 8xNVIDIA A100 40GB
培训信息
  • 使用自定义数据集加载器和增强技术:XFlip、中心裁剪和锁定纵横比缩放
  • 学习率:1.0e-5
  • 10%的辍学(dropouts)
示例

每个图像都使用K. Crowson的k-lms(k-diffusion存储库中的方法)方法扩散了50步。

鸣谢
  • Sta, AI Novelist Dev( https://ai-novel.com/ ) @ Bit192, Inc.
  • Stable Diffusion - Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bjorn
许可证

CreativeML OpenRAIL-M