session://14:29:33
~/ / posts / 2022-08-stable-diffusion.md

Stable Diffusion 开源:文生图的‘安卓时刻’

2022-08-22· 1 min read · [深度思考]
// TL;DR
  • Stable Diffusion 在‘潜空间’做扩散,大幅降低算力需求,消费级 GPU 可跑。
  • 完全开源 + 开放权重,瞬间催生海量插件、微调模型、应用。
  • 和 DALL·E 2 的闭源路线形成鲜明对照——这是文生图真正的引爆点。

技术上的关键优化

Stable Diffusion 的核心技术是‘潜空间扩散(Latent Diffusion)’:不在像素空间直接做扩散(那样太耗算力),而是先用一个自编码器把图片压到一个低维的潜空间,在潜空间里做扩散去噪,最后再解码回像素。这个优化把显存和算力需求砍到普通玩家也能在自己的游戏显卡上跑——这一点,是后面一切的前提。

但它真正的炸点是‘开源’

DALL·E 2 四月就证明了文生图能用,但它闭源、限量、审核严格。Stable Diffusion 做了相反的选择:模型权重完全开放,任何人都能下载、修改、商用、部署。这个决定的后果是核爆级的——几周之内:

  • WebUI 等工具让零基础用户也能本地跑图;
  • ControlNet、LoRA 微调等一大批二次创作技术井喷;
  • 海量针对特定画风的微调模型涌现;
  • 无数 App、插件、创业项目建在它之上。

为什么我叫它‘安卓时刻’

这像极了移动操作系统的历史:DALL·E 2 是 iOS(精致、封闭、可控),Stable Diffusion 是安卓(开放、混乱、生态爆炸)。开放带来了泥沙俱下——版权争议、深度伪造、不良内容随之泛滥(2018 年 Deepfake 的隐忧被放大了无数倍);但开放也带来了无与伦比的创新速度和生态繁荣。

这件事确认了一个我会反复用到的判断:在一个技术方向上,闭源决定上限的精致度,开源决定生态的爆发力。两条路线会长期并存、互相倒逼。对整个行业而言,Stable Diffusion 的最大贡献是把‘生成式 AI’从少数巨头的实验室,真正交到了每一个开发者手里。文生图的大爆发,我赌的这一天,终于完整到来了。

生成式AI开源项目计算机视觉行业动态
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。