从DALL·E 2到Stable Diffusion：一文看懂扩散模型（DDPM）为何成为AIGC顶流-编程实验室

从DALL·E 2到Stable Diffusion：扩散模型如何重塑AIGC产业格局

当DALL·E 2在2022年首次展示其惊人的图像生成能力时，整个科技界为之震动。短短几个月后，Stable Diffusion的开源发布更是将AI生成内容（AIGC）推向了大众视野。这些突破性进展背后，都离不开一个核心技术的支撑——扩散模型（Diffusion Models）。与传统的GAN和VAE不同，扩散模型通过一种独特的"破坏与重建"机制，实现了前所未有的图像质量和生成稳定性。

1. 生成模型的演进：从GAN到扩散模型

在理解扩散模型之前，我们需要回顾生成模型的发展历程。过去十年中，生成对抗网络（GAN）和变分自编码器（VAE）是两大主流技术路线。

GAN的核心特点：

采用生成器与判别器对抗训练
能生成高质量样本但训练不稳定
常见模式崩溃问题（生成多样性不足）

VAE的核心特点：

基于变分推断的生成框架
训练稳定但生成质量相对较低
潜在空间结构明确，适合插值操作

相比之下，扩散模型展现出了独特优势：

特性	GAN	VAE	扩散模型
训练稳定性	低	高	高
生成质量	高	中	极高
模式多样性	中	高	高
计算成本	中	低	高

扩散模型的灵感来源于非平衡态热力学，它通过定义扩散步骤的马尔可夫链，逐步将随机噪声添加到数据中，然后学习逆向扩散过程来从噪声中重建数据样本。

2. 扩散模型的工作原理：加噪与去噪的艺术

扩散模型的核心思想可以用"破坏与重建"来形象理解。这个过程分为两个阶段：正向扩散和逆向生成。

2.1 正向扩散过程

正向扩散是一个固定的马尔可夫链过程，逐步向数据添加高斯噪声。假设我们有一张原始图像x₀，经过T步加噪后，最终变成纯高斯噪声x_T。每一步的加噪过程可以表示为：

def forward_diffusion(x0, t): """ x0: 原始图像 t: 时间步 """ sqrt_alpha = math.sqrt(alpha[t]) sqrt_one_minus_alpha = math.sqrt(1 - alpha[t]) noise = torch.randn_like(x0) xt = sqrt_alpha * x0 + sqrt_one_minus_alpha * noise return xt

这个过程的数学本质是将数据分布逐渐转变为各向同性高斯分布。有趣的是，通过重参数化技巧，我们可以直接计算任意时间步t的加噪结果，而不需要逐步计算。

2.2 逆向生成过程

逆向过程是扩散模型的学习重点，目标是训练一个神经网络来预测并去除噪声。给定一个噪声图像x_t，模型需要预测出被添加的噪声，从而恢复出x_{t-1}。

def reverse_process(xt, t): """ xt: 噪声图像 t: 当前时间步 """ # 预测噪声 predicted_noise = model(xt, t) # 计算均值 mean = (xt - beta[t]/sqrt(1-alpha_bar[t]) * predicted_noise) / sqrt(alpha[t]) # 采样x_{t-1} xt_1 = mean + sigma[t] * torch.randn_like(xt) return xt_1

在实际应用中，如Stable Diffusion，这个过程通常在潜在空间中进行，大幅降低了计算成本。模型采用U-Net架构，结合注意力机制，能够有效捕捉图像的全局和局部特征。