session://14:29:33
~/ / posts / 2024-09-o1-reasoning.md

o1:OpenAI 换了个维度卷——不再卷模型多大,而是卷它‘想多久’

2024-09-12· 4 min read · [论文解读]
// TL;DR
  • o1 在数学、竞赛编程、博士级科学题上断层式超越 GPT-4o(AIME 数学竞赛从十几分跃至八十多分)。
  • 机制:用 RL 训练模型生成长链条的内部思维链,答题前先‘私下想清楚’。
  • 新范式‘推理时扩展’(inference-time scaling):想得越久,答得越准——算力从训练侧,部分转移到了推理侧。

如果说 2024 年只能记住一个技术拐点,我会选 o1。因为它改变的不是‘模型有多强’,而是‘我们靠什么让模型变强’这个底层假设。

先看它有多猛,以及猛在哪里

数字是吓人的:在 AIME(美国高中数学邀请赛,很难)上,GPT-4o 大约只能做对十几分(百分制),o1 直接干到八十多;在 Codeforces 竞赛编程上,它的水平进到了人类选手的高百分位;在 GPQA(博士级的物理、化学、生物难题)上,它超过了相关领域的人类博士。注意这些任务的共性——它们都不是‘知识检索’,而是‘多步推理’:需要一步步演算、试错、回溯、验证。这恰恰是过去大模型最虚的地方(还记得 2023 年 AutoGPT 在长程任务上的全面崩溃吗)。

它到底改了什么:把‘想’这件事,当成可训练、可花算力的对象

过去几年提升模型能力的主轴只有一个:scale 训练——更多参数、更多数据、更多预训练算力(2020 年缩放定律划定的那条路)。提示工程里的思维链(2022 年 PaLM)算是个补丁:让模型把推理过程写出来,准确率会涨。但思维链是‘提示技巧’,模型本身并没有被专门训练去‘想得更好’。

o1 把这个补丁,变成了第一性的训练目标。它的核心做法(OpenAI 没公开全部细节,但方向很清楚)是:用强化学习去训练模型生成一长串的内部推理过程——让它在给出最终答案前,先私下里展开几百上千个 token 的思考:尝试一种思路、发现不对、回退、换一种、自我检查、再确认。RL 的奖励信号是‘最终答案对不对’,于是模型被反复打磨出一套‘怎么思考才更容易得到正确答案’的策略。它不是在背更多知识,而是在学习如何更好地使用已有的知识去推理。

传统模型:  问题 → [立刻输出答案]                 ← 一步到位,难题易错
o1:        问题 → [私下生成长篇推理:试 / 错 / 回退 / 验证] → 答案
           想得越久(推理 token 越多)→ 越准
# 算力从‘训练时一次性投入’,扩展出‘推理时按需投入’这第二个维度

为什么这是个‘新维度’

这里诞生了一个和‘参数规模’并列的全新扩展轴:推理时算力(inference-time / test-time compute)。以前,模型训练完,它的能力就基本定格了,推理只是‘读出’这个能力。o1 证明:同一个模型,你让它在回答时多想一会儿(多花推理算力生成更长的思考),它就能解出原本解不了的题。能力不再只取决于训练投入,还取决于‘当场愿意花多少算力去想’。

这件事的深远影响,我觉得 2024 年的人(包括我)都还没完全消化:

  • 它给了一条新的成长曲线。当‘把预训练模型做大’的边际收益开始变贵变难(Chinchilla 之后大家发现优质数据快不够用了),‘训练模型更会思考 + 推理时多花算力’成了一条崭新的、远没到头的进步路径。
  • 它重新定义了‘Agent’的可行性。2023 年 AutoGPT 们失败在长程推理不可靠,o1 这种能稳定地做几十步推理、自我纠错的模型,正是构建可靠 Agent 缺的那块拼图。智能体的春天,需要的就是这样一个‘大脑’。
  • 它把算力需求推向推理侧。过去算力主要烧在训练,现在每一次‘深度思考’的回答都在烧推理算力——这会重塑整个行业的算力经济学和芯片需求。
  • 代价也很直白:慢、贵。o1 答一道题要思考几十秒甚至更久,成本远高于一次普通调用。它不是用来陪聊的,是用来啃硬骨头的。

我愿意把 o1 和 2017 年的 Transformer、2020 年的 GPT-3 放在同一个量级上谈——不是因为它的某个分数,而是因为它打开了一个新的扩展维度。Transformer 解锁了‘可并行地把模型做大’,GPT-3 解锁了‘大到一定程度会涌现通用能力’,而 o1 解锁了‘让模型学会思考、并能用推理算力换正确率’。从此,大模型的进步不再是一条曲线(堆规模),而是两条(堆规模 + 堆思考)。2025 年,我几乎可以肯定,所有主要玩家都会涌入这条新赛道——‘推理模型’会成为下一个主战场。这一篇,务必精读、长期回看。

大模型强化学习论文解读人工智能
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。