客服橙子
微信二维码
13360330306
cz@payue.com
SD(Stable Diffusion)开源模型是一个在文本到图像生成领域具有广泛影响力的模型,由CompVis、Stability AI和LAION等公司共同研发。以下是对SD开源模型的详细科普:
开源性:SD模型不仅代码、数据、模型全部开源,而且其参数量适中(约1B),使得大部分人可以在普通的显卡上进行推理甚至精调模型。
技术基础:SD是一个基于latent的扩散模型,它在UNet中引入text condition来实现基于文本生成图像。与基于pixel的生成模型相比,基于latent的模型在计算效率上更高,因为图像的latent空间要比图像pixel空间小。
SD模型的主体结构主要包括三个模型:
Autoencoder:
作用:encoder将图像压缩到latent空间,而decoder将latent解码为图像。
特点:autoencoder是一个基于encoder-decoder架构的图像压缩模型,采用基于KL-reg的方法,下采样率f=8,特征维度c=4。
CLIP Text Encoder:
作用:提取输入text的text embeddings,通过cross attention方式送入扩散模型的UNet中作为condition。
特点:CLIP模型是预训练的,能够很好地理解文本内容,并将其转换为模型可理解的embeddings。
UNet:
作用:扩散模型的主体,用来实现文本引导下的latent生成。
特点:UNet是SD模型的核心部分,负责根据文本embeddings生成对应的图像latent,进而生成图像。
高分辨率图像生成:SD模型可以直接生成256x256和512x512甚至更高分辨率的图像,而基于pixel的模型往往受限于算力,只能生成较小分辨率的图像后再通过超分辨模型提升分辨率。
多风格适应性:SD模型能够灵活适应多种风格,无需微调,仅通过提示词就能生成动漫、厚涂等风格化图像。
复杂提示理解:SD模型能够理解复杂的自然语言提示,如空间推理、构图元素、姿势动作、风格描述等,生成符合要求的图像。
资源效率高:SD模型参数量适中,适合在消费级PC和笔记本电脑上运行,使得更多人能够部署和使用该模型。
版本更新:SD模型已经推出了多个版本,如SD 2.0、SD 3等,每个版本都在图像质量、文本内容生成、复杂提示理解和资源效率等方面进行了优化和提升。
应用场景:SD模型广泛应用于图像生成、艺术创作、设计辅助等领域,为用户提供了便捷高效的图像生成工具。
非商业用途:SD模型通常提供开放的非商业许可证,未经官方许可不得用于商业用途。
模型训练与调整:用户可以根据自己的需求对SD模型进行训练和调整,以生成更符合自己要求的图像。
综上所述,SD开源模型是一个功能强大、易于部署和使用的文本到图像生成模型,具有广泛的应用前景和发展潜力。