动手学Avalonia：基于硅基流动构建一个文生图应用（一）

文生图

文生图，全称“文字生成图像”（Text-to-Image），是一种AI技术，能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型，如生成对抗网络（GANs）或变换器（Transformers），来理解和解析文本中的语义信息，并将其转化为视觉表现。文生图可以用于创意设计、图像编辑、虚拟现实、游戏开发等多个领域，为用户提供了从文字到图像的创造性转换工具。例如，用户可以输入“一只蓝色的猫坐在月球上”，AI将尝试生成符合描述的图像。

Stable Diffusion

Stable Diffusion 是一种潜在的文本到图像扩散模型。得益于 Stability AI 慷慨的计算资源捐赠以及 LAION 的支持，我们得以使用 LAION-5B 数据库的一个子集中的 512x512 图像来训练一个潜在扩散模型。与 Google 的 Imagen 类似，此模型使用一个冻结的 CLIP ViT-L/14 文本编码器来根据文本提示对模型进行条件设定。该模型拥有 8.6 亿参数的 UNet 和 1.23 亿参数的文本编码器，相对轻量，只需要至少 10GB VRAM 的 GPU 即可运行。详情请参阅以下部分和模型卡片。

简而言之，Stable Diffusion 是一个由 Stability AI 和 LAION 支持的项目，使用 LAION-5B 数据库中的图像训练而成。它借鉴了 Google Imagen 的设计理念，使用 CLIP ViT-L/14 文本编码器处理文本提示，具有相对较小的模型大小，使得它在普通 GPU 上即可运行。

Stable Diffusion 3 Medium 是目前 Stable Diffusion 3 系列中最新、最先进的文本到图像 AI 模型，包含 20 亿个参数。它擅长照片级真实感，处理复杂的提示并生成清晰的文本。

stable-diffusion-3-medium模型开源地址：https://huggingface.co/stabilityai/stable-diffusion-3-medium