Stable Diffusion 开源:文生图的‘安卓时刻’

技术上的关键优化

Stable Diffusion 的核心技术是‘潜空间扩散(Latent Diffusion)’:不在像素空间直接做扩散(那样太耗算力),而是先用一个自编码器把图片压到一个低维的潜空间,在潜空间里做扩散去噪,最后再解码回像素。这个优化把显存和算力需求砍到普通玩家也能在自己的游戏显卡上跑——这一点,是后面一切的前提。

但它真正的炸点是‘开源’

DALL·E 2 四月就证明了文生图能用,但它闭源、限量、审核严格。Stable Diffusion 做了相反的选择:模型权重完全开放,任何人都能下载、修改、商用、部署。这个决定的后果是核爆级的——几周之内:

WebUI 等工具让零基础用户也能本地跑图;
ControlNet、LoRA 微调等一大批二次创作技术井喷;
海量针对特定画风的微调模型涌现;
无数 App、插件、创业项目建在它之上。

为什么我叫它‘安卓时刻’

这像极了移动操作系统的历史:DALL·E 2 是 iOS(精致、封闭、可控),Stable Diffusion 是安卓(开放、混乱、生态爆炸)。开放带来了泥沙俱下——版权争议、深度伪造、不良内容随之泛滥(2018 年 Deepfake 的隐忧被放大了无数倍);但开放也带来了无与伦比的创新速度和生态繁荣。

这件事确认了一个我会反复用到的判断:在一个技术方向上,闭源决定上限的精致度,开源决定生态的爆发力。两条路线会长期并存、互相倒逼。对整个行业而言,Stable Diffusion 的最大贡献是把‘生成式 AI’从少数巨头的实验室,真正交到了每一个开发者手里。文生图的大爆发,我赌的这一天,终于完整到来了。

技术上的关键优化

但它真正的炸点是‘开源’

为什么我叫它‘安卓时刻’

每周一封，<5 分钟读完