session://14:29:33
~/ / posts / 2026-03-gdpval-gpt54.md

GPT-5.4 与 GDPval:当 AI 开始用‘能顶几个白领’来打分

2026-03-09· 3 min read · [深度思考]
// TL;DR
  • GPT-5.4(3/5)在计算机操作基准(OSWorld、WebArena)和 GDPval 上创纪录,GDPval 达约 83%。
  • GDPval:用 1320 个真实职业任务(44 种职业、9 大行业)考 AI 能否产出专业级交付物。
  • 评价范式转变:从‘解抽象题’到‘完成真实工作’——并伴随‘100 倍更快更便宜’这类直指就业的论断。

评价一个领域往哪走,看它用什么尺子量自己最准。2026 年 3 月,这把尺子明显换了。

GPT-5.4:进步藏在‘能干活’里

GPT-5.4 本身是一次典型的‘小数点迭代’——没有物种级的飞跃,但在两类指标上创了纪录,而这两类恰恰暴露了行业的新重心。一是计算机操作类基准(OSWorld、WebArena 这种‘让模型真的去操作一个电脑/网页环境完成任务’的测试),它刷了新高——这是 Agent 能力成熟的直接信号,呼应了开年那场 Agent 热。二是 GDPval,它拿到了约 83%。

GDPval 才是真正的主角

GDPval 是 OpenAI 2025 年 9 月推出的基准,它的设计哲学和过去所有基准都不一样,值得仔细说。过去我们考 AI,用的是 MMLU(综合知识)、AIME(数学竞赛)、HumanEval(刷编程题)、甚至 2024 年那个专门为难 AI 的 ARC——它们考的都是‘抽象能力’。GDPval 反过来,直接奔着‘经济价值’去:它收集了 1320 个真实任务,来自 44 种职业、9 个各自贡献美国 GDP 超过 5% 的行业,任务就是这些职业从业者日常要交付的真东西——一份法律备忘录、一张工程图纸、一个财务模型、一份诊疗建议。然后让 AI 去做,再请该领域的资深专家盲评:AI 的交付物,和人类专业人士比,够不够格。

旧尺子(测‘智商’):
  MMLU / AIME / HumanEval / ARC  →  问:它会不会解题?

GDPval(测‘能不能替一份工’):
  1320 个真实职业任务 × 44 种职业 × 资深专家盲评
  →  问:它的交付物,顶不顶得上一个专业人士?

尺子从‘抽象能力’换成了‘经济产出’——这一换,问题就从学术,变成了饭碗。

‘100 倍更快、100 倍更便宜’,这句话的重量

OpenAI 给出的研究结论里,有一句注定要被反复引用、也注定刺痛很多人的话:在这些任务上,前沿模型完成交付的速度和成本,大约是人类专家的百分之一——快约 100 倍、便宜约 100 倍。需要冷静地加几个限定:GDPval 测的是离散的、定义清晰的任务交付物,不是一份工作的全部(真实工作还包含沟通、判断、担责、处理意外、人际协调这些没法被一个任务切片捕捉的东西);83% 也不等于‘83% 的工作被取代’。但即便打了这些折,信号依然震耳欲聋——AI 在‘知识工作的可切片部分’上,正在逼近甚至达到专业水准,且成本低到几乎可以忽略。

我把 GDPval 的出现,看作整个领域成熟的一个标志,甚至比某个模型刷新分数更重要。它意味着行业的自我认知变了:我们不再满足于问‘AI 有多聪明’(一个学术问题),而开始问‘AI 能创造/替代多少经济价值’(一个社会问题)。这把尺子一旦立起来,关于就业、关于哪些岗位会被重构、关于‘人在 AI 时代做什么’的讨论,就再也没法回避了。

这其实接上了我开年写的那条‘ROI 与泡沫’的线:当资本追问回报、当 GDPval 用‘能顶几个专家’给 AI 打分,2026 年的 AI,正被一种前所未有的、赤裸裸的经济视角重新审视。技术的浪漫期真的过去了,接下来是它和真实世界、真实饭碗、真实账本短兵相接的硬仗。这一仗怎么打、人怎么自处,是接下来很多年的主题——也正好是我这个博客最想长期记录的东西。

大模型人工智能行业动态产品思考
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。