扩散模型掀翻 GAN:生成式 AI 的‘改朝换代’

扩散模型怎么工作

思路有种禅意:训练时,把一张清晰图片逐步加噪声,直到变成纯高斯噪声(前向过程);然后训练一个网络学会反着来——给定带噪的图,预测该去掉多少噪声(逆向过程)。生成时,从一团纯噪声出发,让网络一步步去噪,最后‘显影’出一张清晰图片。像是教模型把一团雪花慢慢‘擦’成照片。

它凭什么干翻 GAN

GAN 靠生成器和判别器对抗训练,效果惊艳但出了名的难伺候:训练不稳定、模式崩溃(只会生成几种样子)、超参敏感。扩散模型的训练目标是个稳稳的回归(预测噪声),没有对抗,训练稳定、覆盖的样本多样性也更好。这篇论文用 classifier guidance 等技巧,在 ImageNet 上把生成质量(FID 指标)首次压过了 BigGAN。

为什么我特别看重这篇

生成质量超越 GAN 只是表面,真正重要的是扩散模型的两个工程友好属性:训练稳、可控性强(后面会发现它特别容易接受文本等条件引导)。这两点意味着它具备‘被产品化’的潜质,而 GAN 因为难训一直卡在这。

把线索连起来:年初 CLIP 给了‘文本-图像对齐’,DALL·E 给了‘文生图’的雏形,现在扩散模型给了‘高质量 + 稳定 + 可引导’的生成引擎。这几块拼图凑齐,文生图的大爆发只差一个把它们组装好、做到人人可用的产品。这个产品什么时候出现?我猜不超过一年半。(2022 年的剧本,已经在零件堆里成形了。)

扩散模型怎么工作

它凭什么干翻 GAN

为什么我特别看重这篇

每周一封，<5 分钟读完