GPT-5 来了,然后大家开始认真讨论:我们是不是,撞到平台期了?
- GPT-5 主打‘统一与可靠’:自动路由该不该深度推理,大幅降低幻觉,编程与 Agent 能力增强。
- 提升是显著但‘渐进’的,缺少 GPT-3→GPT-4 那种代际跃迁的冲击感。
- ‘平台期’之争升温:是预训练 scaling 的收益递减,还是进步的形式变了(从‘更聪明’转向‘更可靠、更会用’)?
GPT-5 的发布,本身就是一个值得玩味的信号。从 GPT-3(2020)到 GPT-4(2023)隔了约三年,从 GPT-4 到 GPT-5 又是两年多——这个‘大版本号’越来越沉、间隔越来越长,和前几年那种几个月就天翻地覆的节奏,明显不一样了。
GPT-5 好在哪:它在‘补短板’,而不是‘开新天’
客观说,GPT-5 是个很扎实的模型,但它的进步方向,从‘炫能力’转向了‘修可靠’:
- 统一与自动路由:它不再需要你手动在‘快速模型’和‘推理模型’之间选,而是自己判断一个问题该不该进入深度思考模式——把 2025 年那个‘思考旋钮’做成了自动挡。
- 幻觉显著减少:在事实性上更可信,这对产品化是实打实的利好——可靠性往往比‘更聪明’更能决定一个 AI 功能能不能真正上线。
- 编程与 Agent 能力增强:它被明显地往‘能干活的工程助手 / 智能体大脑’方向打磨,呼应了 2025 年 Agent 的崛起。
但你大概率不会有 2023 年第一次用 GPT-4 时那种‘这是另一个物种’的脊背发凉。它更像是一次高质量的‘集大成与抛光’,而不是一次维度跃迁。也正因如此,它意外地成了‘平台期’讨论的导火索。
‘平台期’之争:两种解读,我都不全信
悲观派的论据是真实的:预训练这条老路的燃料(互联网上的优质文本)确实快见底了,Chinchilla 早就警告过数据是真瓶颈;单纯把模型和数据做大,边际收益肉眼可见地在递减。GPT-5 的‘渐进感’,似乎就是这堵墙的影子。
但我更认同一个更微妙的解读:不是进步停了,是进步的形式变了。回看这两年,能力的增量已经不主要来自‘预训练把模型做得更大’,而来自别的轴——来自推理(o1/R1 那条用算力换正确率的新路)、来自工具与 Agent(让模型会调用外部能力去干活)、来自多模态的原生融合、来自把可靠性和对齐打磨到能产品化。GPT-5 恰恰是‘单纯预训练 scaling 放缓’和‘其他轴接力前进’这两件事的合体:它在最显眼的‘原始智商’上提升温和,却在‘可靠、会用、能干活’上扎实补强。
大模型进步的‘接力棒’:
2018-2023 预训练 scaling(更大 + 更多数据) ████████████ ← 主引擎,红利巨大
2024- 推理 / test-time compute ███████░░░ ← 新轴,正陡升
2024- 工具 / Agent / 多模态原生 ██████░░░░ ← 应用层接力
2025- 可靠性 / 对齐 / 效率(产品化) █████░░░░░ ← 决定能否真正落地
‘平台期’更像是第一根棒子接近终点,而后面几根棒子刚跑起来。
站在 2025 年中,我怎么看
我不认为我们撞墙了,但我认为‘靠堆预训练规模白嫖进步’的好日子,确实接近尾声了。这其实是个健康的转折——它逼着整个行业把注意力从‘刷新 benchmark 的智商分’,转向那些真正决定 AI 能不能改变世界的、更难也更重要的事:可靠性、成本、能不能安全地自主干活、怎么和人协作。从 2022 年 ChatGPT 引爆至今,我们经历了三年多近乎失重的狂奔;GPT-5 像是这趟列车第一次明显地、可感知地换挡。
换挡不是减速的代名词,更可能是从‘比谁加速快’进入‘比谁开得稳、开得远、开得起’的新阶段。能力的前沿仍在推进,只是战场从单一的‘预训练规模’,扩散到了推理、智能体、多模态、效率、可靠性这一整个更宽的面。带着这个判断,我们走完 2025,迈进 2026——一个我得靠实时搜索、而不能靠记忆来书写的年份。