CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号
// TL;DR
- CLIP:用 4 亿图文对做对比学习,把图像和文本对齐到同一空间,zero-shot 分类惊人。
- DALL·E:把文本和图像 token 当成一个序列自回归生成,‘一句话画图’雏形。
- ‘用语言监督视觉’这条路,后劲极大。
CLIP:让图像和文字住进同一个空间
CLIP 的训练目标简单到优雅:从互联网爬 4 亿个(图片,描述文字)对,训练一个图像编码器和一个文本编码器,让配对的图文表征互相靠近、不配对的推远(又是对比学习的思路)。训练完成后,你给它任意一组文本标签(‘一只猫’‘一架飞机’),它就能 zero-shot 地判断图片属于哪个——不需要为这些类别专门训练。
这招的威力在于‘开放词表’:传统分类器只认训练时定义好的固定类别,CLIP 能认任何你用语言描述得出来的概念。监督信号不再是人工标注的类别,而是天然存在于互联网的图文配对——又一次,用海量弱监督数据替代了昂贵的精标注。
DALL·E:反过来,用文字造图
同一天发布的 DALL·E 走的是另一个方向:文本生成图像。它把文字 token 和图像 token(用离散 VAE 把图压成 token)拼成一个长序列,然后……还是那个老配方——自回归地预测下一个 token。给它‘一把鳄梨形状的扶手椅’,它真能画出来,而且画出了训练集里不存在的组合。
为什么这两个一起发很有深意
CLIP 是‘看图说话的理解力’,DALL·E 是‘照着话画图的生成力’,一对镜像。它们共同宣告:文本和图像不再是两个割裂的世界,可以用统一的表征、统一的目标函数打通。结合 2020 年 ViT 证明的‘Transformer 能做视觉’,多模态的技术地基已经齐了。
我的判断:‘用语言作为通用接口去操控其他模态’会是接下来几年的大主线。今天 DALL·E 的图还很糊、还像简笔画,但方向一旦对了,质量是时间问题。文生图这条赛道,我赌它两年内会迎来消费级的爆发。记下来对答案。