StyleDrop：比肩Midjourney的图像生成器

2023年06月05日由 Samoyed 发表 852033 0

Google的StyleDrop一经发布便引起了广泛的关注。StyleDrop是一个由 Muse 提供支持的文本到图像生成器。StyleDrop可以按照特定的风格生成图像，它可以抓住用户提供的样式的细微差别和细节，例如配色方案、阴影、设计模式以及局部和全局效果。StyleDrop的工作原理是通过微调很少的可训练参数（少于总模型参数的1%）来有效地学习新风格，并通过人工或自动反馈的迭代训练来提高质量。更重要的是，即使用户只提供指定所需样式的单个图像，StyleDrop也能够提供令人满意的结果。根据研究表明，Muse上的Styledrop在根据文本生成并调整图像方面明显优于其他方法，包括Imagen或Stable Diffusion上的DreamBooth和Textual Inversion。

从单一图像生成风格化的图像

StyleDrop通过一个单一的参考图像生成任意风格的高质量图像。在训练和生成的过程中，自然语言中的风格描述符（例如，“在熔融的金色三维渲染风格中”）被附加到内容描述符中。

[caption id="attachment_52031" align="aligncenter" width="740"]

融化的金色3D渲染（melting golden 3d rendering）[/caption]

风格化的角色渲染

StyleDrop生成由单个参考图像描述的具有一致样式的字母图像。在训练和生成时，在内容描述符后面附加一个自然语言的风格描述符（例如，“在抽象的彩虹色流动烟波设计中”）。

[caption id="attachment_52032" align="alignnone" width="740"]

抽象彩虹色流动烟波设计（abstract rainbow colored flowing smoke wave design）[/caption]

成为你的风格助手

您可以很容易地使用自己的品牌资产训练StyleDrop，帮助您快速在自己的风格中设计您的想法。在训练和生成的过程中，自然语言中的风格描述符会附加到内容描述符中。

我的主题，我的风格

将StyleDrop和DreamBooth结合起来，以“我的风格”生成“我的主题”的图像。

与扩散模型微调的比较

Muse 上的 StyleDrop 是一种基于离散令牌的视觉转换器，在风格调整方面优于基于扩散（Imagen, Stable Diffusion）模型的现有方法。

来源：https://styledrop.github.io/

标签：

行业谷歌人工智能 StyleDrop

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Cloudflare 增强了无服务器数据库 D1 的性能

下一篇谷歌开始在幻灯片中推出图像生成功能，为Gmail等增加Duet AI

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

最好的基于Transformer的LLM（上）