o3 与 ARC 谜题:推理这条新路,年底就给了我们一个‘吓一跳’

9 月 o1 打开了‘让模型多想一会儿就更聪明’的大门,我当时说 2025 年大家会涌进这条赛道。OpenAI 自己等不到 2025,12 月就甩出了下一代 o3,而且选了一个极具象征意义的考场来证明它:ARC-AGI。

为什么 ARC 这个基准特别值得说

ARC(Abstraction and Reasoning Corpus)是研究者 François Chollet 多年前专门设计来‘考倒大模型’的。它的每道题是几组小小的彩色网格,你要从两三个‘输入→输出’的例子里,悟出背后那条抽象规则,然后应用到新输入上。它的设计哲学很刁钻:刻意避开任何能靠‘背书 + 海量数据’解决的东西,专测‘面对全新问题、从极少样本里抽象出规律’的能力——也就是 Chollet 认为最接近‘智能’本质的那种流体推理。多年来,把整个互联网吞下去的大模型,在 ARC 上一直得分很低,这成了‘大模型只会插值、不会真推理’这一派最有力的论据。

o3 把这个论据撞了个粉碎:它在 ARC-AGI 上拿到了约 87%,跨过了人类平均水平线。一个被专门设计来证明‘大模型不会真推理’的基准,被一个大模型解决了。

但请把账单也看清楚

这里必须泼一盆冷静的水,而这盆水恰恰是最有信息量的部分:o3 那个 87% 是在‘高算力模式’下取得的,代价是——解每一道题的推理成本高达数千美元。不是笔误,是一道网格谜题烧掉几千美元的算力去‘想’。Chollet 本人也强调了这一点:o3 证明了这条路走得通,但远没到‘高效’。

这恰恰是对 o1 范式最干净的一次验证,也是它最诚实的一次自我暴露。它把‘推理时扩展’的本质摊开给你看:能力,是可以用推理算力直接买的——你愿意为一道题烧几千美元,它就能给你接近人类的抽象推理。这条‘花更多算力换更强推理’的曲线,在 2024 年底,还在陡峭地往上走,没看到拐点。

我在年末的判断

把 o1 和 o3 连起来看,2024 年下半年发生的事,可能比上半年的 Sora、GPT-4o 都更重要,因为它改的是底层范式。这几年大家一直担心一件事:互联网的优质文本快被吃完了,预训练‘堆数据堆规模’这条老路的边际收益在递减(Chinchilla 早就暗示数据是真瓶颈)。o1/o3 等于在老路快撞墙时,劈出了一条新路——不靠喂更多数据,而靠教模型更会思考、并在推理时按需投入算力。这条新路,2024 年底看,空间还非常大。

但 o3 那张几千美元的账单也立了块警示牌:这一代的‘聪明’,目前是用昂贵的算力硬堆出来的。2025 年这条赛道真正的竞争,不会只是‘谁更聪明’,而是‘谁能把同样的聪明做得便宜十倍、一百倍’——就像当年 AlphaGo 从分布式集群瘦身到单机 TPU 那样。能力的边界正在被推理范式快速外推,而效率的战争,才刚刚拉开。带着这两个判断,我们进入 2025。

为什么 ARC 这个基准特别值得说

但请把账单也看清楚

我在年末的判断

每周一封，<5 分钟读完