session://14:29:33
~/ / posts / 2025-08-gpt5-plateau-debate.md

GPT-5 来了,然后大家开始认真讨论:我们是不是,撞到平台期了?

2025-08-07· 3 min read · [深度思考]
// TL;DR
  • GPT-5 主打‘统一与可靠’:自动路由该不该深度推理,大幅降低幻觉,编程与 Agent 能力增强。
  • 提升是显著但‘渐进’的,缺少 GPT-3→GPT-4 那种代际跃迁的冲击感。
  • ‘平台期’之争升温:是预训练 scaling 的收益递减,还是进步的形式变了(从‘更聪明’转向‘更可靠、更会用’)?

GPT-5 的发布,本身就是一个值得玩味的信号。从 GPT-3(2020)到 GPT-4(2023)隔了约三年,从 GPT-4 到 GPT-5 又是两年多——这个‘大版本号’越来越沉、间隔越来越长,和前几年那种几个月就天翻地覆的节奏,明显不一样了。

GPT-5 好在哪:它在‘补短板’,而不是‘开新天’

客观说,GPT-5 是个很扎实的模型,但它的进步方向,从‘炫能力’转向了‘修可靠’:

  • 统一与自动路由:它不再需要你手动在‘快速模型’和‘推理模型’之间选,而是自己判断一个问题该不该进入深度思考模式——把 2025 年那个‘思考旋钮’做成了自动挡。
  • 幻觉显著减少:在事实性上更可信,这对产品化是实打实的利好——可靠性往往比‘更聪明’更能决定一个 AI 功能能不能真正上线。
  • 编程与 Agent 能力增强:它被明显地往‘能干活的工程助手 / 智能体大脑’方向打磨,呼应了 2025 年 Agent 的崛起。

但你大概率不会有 2023 年第一次用 GPT-4 时那种‘这是另一个物种’的脊背发凉。它更像是一次高质量的‘集大成与抛光’,而不是一次维度跃迁。也正因如此,它意外地成了‘平台期’讨论的导火索。

‘平台期’之争:两种解读,我都不全信

悲观派的论据是真实的:预训练这条老路的燃料(互联网上的优质文本)确实快见底了,Chinchilla 早就警告过数据是真瓶颈;单纯把模型和数据做大,边际收益肉眼可见地在递减。GPT-5 的‘渐进感’,似乎就是这堵墙的影子。

但我更认同一个更微妙的解读:不是进步停了,是进步的形式变了。回看这两年,能力的增量已经不主要来自‘预训练把模型做得更大’,而来自别的轴——来自推理(o1/R1 那条用算力换正确率的新路)、来自工具与 Agent(让模型会调用外部能力去干活)、来自多模态的原生融合、来自把可靠性和对齐打磨到能产品化。GPT-5 恰恰是‘单纯预训练 scaling 放缓’和‘其他轴接力前进’这两件事的合体:它在最显眼的‘原始智商’上提升温和,却在‘可靠、会用、能干活’上扎实补强。

大模型进步的‘接力棒’:
  2018-2023  预训练 scaling(更大 + 更多数据) ████████████  ← 主引擎,红利巨大
  2024-      推理 / test-time compute            ███████░░░    ← 新轴,正陡升
  2024-      工具 / Agent / 多模态原生            ██████░░░░    ← 应用层接力
  2025-      可靠性 / 对齐 / 效率(产品化)        █████░░░░░    ← 决定能否真正落地

‘平台期’更像是第一根棒子接近终点,而后面几根棒子刚跑起来。

站在 2025 年中,我怎么看

我不认为我们撞墙了,但我认为‘靠堆预训练规模白嫖进步’的好日子,确实接近尾声了。这其实是个健康的转折——它逼着整个行业把注意力从‘刷新 benchmark 的智商分’,转向那些真正决定 AI 能不能改变世界的、更难也更重要的事:可靠性、成本、能不能安全地自主干活、怎么和人协作。从 2022 年 ChatGPT 引爆至今,我们经历了三年多近乎失重的狂奔;GPT-5 像是这趟列车第一次明显地、可感知地换挡。

换挡不是减速的代名词,更可能是从‘比谁加速快’进入‘比谁开得稳、开得远、开得起’的新阶段。能力的前沿仍在推进,只是战场从单一的‘预训练规模’,扩散到了推理、智能体、多模态、效率、可靠性这一整个更宽的面。带着这个判断,我们走完 2025,迈进 2026——一个我得靠实时搜索、而不能靠记忆来书写的年份。

大模型行业动态人工智能产品思考
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。