session://14:29:33
~/ / posts / 2025-05-reasoning-becomes-default.md

Claude 4 与‘会思考’的标配化:推理从奢侈品变成了一个旋钮

2025-05-22· 3 min read · [深度思考]
// TL;DR
  • Claude Opus 4 / Sonnet 4 主打‘混合推理’:同一个模型,既能秒回,也能进入‘扩展思考’模式深算。
  • 全行业在八个月内集体转向:推理能力成了旗舰模型的标配,而非专门型号。
  • ‘思考预算(thinking budget)’成为新的产品与成本旋钮——延迟、花费、准确率之间的显式权衡。

翻回 2024 年 9 月我写 o1 那篇的结尾:‘2025 年,我几乎可以肯定,所有主要玩家都会涌入这条新赛道,推理模型会成为下一个主战场。’这是我这一系列里押得最准、兑现最快的一次。但兑现的方式比我设想的更进一步——推理没有只是‘多了一类专门的推理模型’,它直接被吸收成了所有旗舰的基础能力。

Claude 4 的‘混合’姿态,是这个趋势的代表

五月 Anthropic 发布 Claude Opus 4 和 Sonnet 4,核心卖点之一是‘混合推理(hybrid reasoning)’:同一个模型,你可以让它像以前一样即时秒回(适合闲聊、简单任务),也可以切到‘扩展思考’模式,让它先私下展开长篇推理再作答(适合数学、编程、复杂分析)。同期 Google 的 Gemini 2.5、以及年初 DeepSeek、OpenAI 的更新,全是这个路子。八个月,整个行业从‘要不要做推理模型’,变成了‘怎么把推理做成可调的标配’。

最有产品意味的变化:‘思考’成了一个可计量、可定价的旋钮

我认为 2025 年关于推理最值得记住的,不是某个模型多聪明,而是一个新的工程原语诞生了:思考预算(thinking budget)。开发者现在可以显式地控制‘让模型想多久 / 花多少推理 token 去想’,在延迟、成本、准确率之间做权衡。

# 推理变成了一个可调旋钮(示意)
resp = model.generate(
    prompt="证明这个数论命题……",
    thinking_budget="high",   # low / medium / high —— 想得越久越准,也越慢越贵
)
# 简单问题:budget=low,秒回省钱
# 难题:budget=high,让它深算,用算力换正确率
# 同一个模型,按任务难度,动态决定‘投入多少思考’

这其实是 2024 年 o1‘推理时扩展’那个洞察,被彻底产品化了。能力不再是模型训练完就定死的一个常数,而是一条可以在推理时按需购买的曲线——你为难题付更多算力,就买到更高的正确率。这件事重塑了 AI 应用的成本模型:做产品的人现在要像调云服务配置一样,为不同任务分配‘思考档位’,在体验和账单之间找平衡。

退一步,看清这条主线

把 2022 到 2025 串起来,一条清晰的主线浮现了:2022 年思维链发现‘让模型把推理写出来就更准’(一个提示技巧)→ 2024 年 o1 把它变成‘用 RL 训练模型更会思考’(一个训练范式)→ 2025 年它被吸收为‘每个旗舰都自带、且可调的基础能力’(一个产品原语)。一个最初看着像 prompt 小窍门的东西,三年间长成了整个领域的新地基。

这也悄悄回答了一个曾让很多人焦虑的问题:互联网优质文本快被吃完、预训练‘堆数据’这条老路边际收益递减,大模型是不是要撞墙了?推理范式给出的答案是——不会,因为我们找到了第二条正交的成长轴。不靠喂更多数据,而靠教模型更会用已有的知识去思考、并在推理时按需投入算力。2025 年,这条新轴还在陡峭上升,远没看到顶。模型变聪明的方式,从此是两条腿走路了。

大模型强化学习行业动态产品思考
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。