DALL·E 2:文生图跨过了‘能用’的门槛
// TL;DR
- DALL·E 2 = CLIP 文本理解 + 扩散模型生成,质量碾压初代。
- 支持文生图、图像编辑(inpainting)、风格变体。
- 去年我赌‘文生图一年内消费级爆发’,这是兑现的第一张牌。
零件终于组装好了
还记得 2021 年我数过的那几块拼图吗——CLIP(文图对齐)、扩散模型(高质量稳定生成)、DALL·E 初代(文生图雏形)。DALL·E 2 把它们焊在了一起:用 CLIP 把你的文字描述编码成一个语义向量,再用扩散模型从这个向量‘显影’出图像。结果是质的飞跃——从初代的简笔画,跃升到能以假乱真的照片级、油画级图像。
不只是生成,还能编辑
DALL·E 2 还带来了几个杀手级能力:inpainting(框出图片一块,用文字描述让它重画,比如‘把这里的沙发换成绿色’)、outpainting(向画布外延展画面)、variations(给一张图生成多个风格变体)。这些把它从‘抽卡式生成’变成了‘可交互的创作工具’。
我的判断
2021 年我赌‘文生图一年半内迎来消费级爆发’。DALL·E 2 是兑现的开始——它第一次让非专业人士直观感到‘哇这真的能用’。但 OpenAI 选择了限量内测 + 闭源 + 内容审核的路线,门是开了条缝,没全开。
这就留下了一个巨大的真空:如果有人把同等质量的文生图做成开源、免费、人人可跑,会发生什么?这个真空,几个月后会被一个叫 Stable Diffusion 的东西轰然填满。文生图的真正引爆点,还在路上——但已经能听见引信燃烧的声音了。