快速导航

算法备案

公安网备案

地址挂靠

商标业务

宗教信息证

联系客服

客服橙子

微信二维码
13360330306
cz@payue.com

算法备案

代办互联网信息服务算法备案、深度合成备案填报，电话13360330306，微信同号

首页>行业资讯>算法备案

Stable Diffusion 开源模型的详细科普

更新时间：2024/09/06
点击量：321
分享

SD（Stable Diffusion）开源模型是一个在文本到图像生成领域具有广泛影响力的模型，由CompVis、Stability AI和LAION等公司共同研发。以下是对SD开源模型的详细科普：

一、模型概述

开源性：SD模型不仅代码、数据、模型全部开源，而且其参数量适中（约1B），使得大部分人可以在普通的显卡上进行推理甚至精调模型。
技术基础：SD是一个基于latent的扩散模型，它在UNet中引入text condition来实现基于文本生成图像。与基于pixel的生成模型相比，基于latent的模型在计算效率上更高，因为图像的latent空间要比图像pixel空间小。

二、模型结构

SD模型的主体结构主要包括三个模型：

Autoencoder：

作用：encoder将图像压缩到latent空间，而decoder将latent解码为图像。
特点：autoencoder是一个基于encoder-decoder架构的图像压缩模型，采用基于KL-reg的方法，下采样率f=8，特征维度c=4。

CLIP Text Encoder：

作用：提取输入text的text embeddings，通过cross attention方式送入扩散模型的UNet中作为condition。
特点：CLIP模型是预训练的，能够很好地理解文本内容，并将其转换为模型可理解的embeddings。

UNet：

作用：扩散模型的主体，用来实现文本引导下的latent生成。
特点：UNet是SD模型的核心部分，负责根据文本embeddings生成对应的图像latent，进而生成图像。

三、模型特点与优势

高分辨率图像生成：SD模型可以直接生成256x256和512x512甚至更高分辨率的图像，而基于pixel的模型往往受限于算力，只能生成较小分辨率的图像后再通过超分辨模型提升分辨率。
多风格适应性：SD模型能够灵活适应多种风格，无需微调，仅通过提示词就能生成动漫、厚涂等风格化图像。
复杂提示理解：SD模型能够理解复杂的自然语言提示，如空间推理、构图元素、姿势动作、风格描述等，生成符合要求的图像。
资源效率高：SD模型参数量适中，适合在消费级PC和笔记本电脑上运行，使得更多人能够部署和使用该模型。

四、模型发展与应用

版本更新：SD模型已经推出了多个版本，如SD 2.0、SD 3等，每个版本都在图像质量、文本内容生成、复杂提示理解和资源效率等方面进行了优化和提升。
应用场景：SD模型广泛应用于图像生成、艺术创作、设计辅助等领域，为用户提供了便捷高效的图像生成工具。

五、注意事项

非商业用途：SD模型通常提供开放的非商业许可证，未经官方许可不得用于商业用途。
模型训练与调整：用户可以根据自己的需求对SD模型进行训练和调整，以生成更符合自己要求的图像。

综上所述，SD开源模型是一个功能强大、易于部署和使用的文本到图像生成模型，具有广泛的应用前景和发展潜力。