session://14:29:33
~/ / posts / 2024-02-sora.md

Sora:当文生视频好到不像真的,OpenAI 顺势抛出了‘世界模拟器’的野心

2024-02-15· 2 min read · [深度思考]
// TL;DR
  • Sora 能生成长达 60 秒、分辨率高、时间一致性强的视频,远超此前文生视频的水平。
  • 技术路线:把视频切成时空 patch,当成 token,用扩散 Transformer(DiT)在其上生成。
  • OpenAI 的叙事:能预测视频未来帧,本质是在学习物理世界的运行规律——这是 World Model 的味道。

文生视频之前一直是生成式 AI 里最尴尬的一块:要么几秒就穿帮,要么人物一动就鬼畜,物体凭空出现又消失。Sora 的样片把这个印象一次性击碎了——一只猛犸象走过雪原,毛发和积雪都对;东京街头的女人,镜头推拉间衣服褶皱、水面倒影、行人遮挡关系基本自洽;时长能到一分钟,而且全程时间一致(同一个人不会走着走着换张脸)。这个跨度,大到让影视、广告、游戏行业集体一震。

技术上它做对了什么

Sora 的配方其实是几条成熟路线的漂亮合流。它把视频在时间和空间上都切成小块(spacetime patches),每个块当成一个 token——这等于把 2020 年 ViT 处理图像的‘切 patch’思路,扩展到了第四个维度时间。然后在这些 token 上跑扩散 Transformer(DiT):还是 2021 年那套‘从噪声一步步去噪’的扩散,只是骨架从 U-Net 换成了可规模化的 Transformer。换言之,Sora 没发明什么全新原理,它是‘扩散 + Transformer + 把视频 token 化 + 海量算力’的一次工程集大成。又一次,scale 起作用了。

‘世界模拟器’:是洞见,还是又一次叙事包装?

OpenAI 在技术报告里没满足于‘我们做了个很强的视频生成器’,而是抛出了一个大得多的说法:为了准确预测视频的下一帧,模型必须隐式地学会世界是怎么运作的——物体的恒存性、重力、碰撞、因果。所以 Sora 不只是在‘画视频’,它在学习一个可模拟的世界,这是通往 World Model、乃至通用智能的一条路径。

这个说法我是半信半疑的,值得拆开看。说它有道理:这确实呼应了 2018 年 World Models 那篇论文的古老直觉——能预测环境演化的模型,某种意义上‘理解’了环境;而且 Sora 的样片里,确实涌现出了一些没被显式教过的物理合理性。说它过度:Sora 也会犯很物理的错(玻璃杯打翻液体的方向不对、人咬一口饼干饼干却没缺口),说明它学到的是‘视觉上看起来对的统计规律’,而不是真正的物理引擎。把‘能生成逼真视频’等同于‘理解了物理世界’,这一步跨得太大,有 2023 年‘AGI 火花’那种叙事先行的味道。

但我愿意认真对待这个野心,原因是它指向了一个真问题:具身智能(机器人)最缺的,恰恰是一个能让它在‘脑内’低成本试错的世界模拟器。如果文生视频这条线真能长成可交互、物理可靠的世界模型,那它的下游就不只是抖音特效,而是机器人训练、自动驾驶仿真、科学模拟。Sora 当下是个惊艳的内容工具,但 OpenAI 把旗子插在了更远的地方。这个旗子能不能兑现,是未来几年最值得盯的方向之一——也是 2024 年开年,行业野心边界被重新标定的一刻。

生成式AI大模型计算机视觉行业动态
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。