GPT-4 与‘AGI 的火花’:能力封顶的一天,也是 OpenAI 彻底闭嘴的一天

Sydney 那一周大家见识的,其实就是 GPT-4 的早期形态。3 月 14 日,正式版来了,能力的提升是肉眼可见、且可量化的。

它到底强在哪

不是某个单项的奇技,而是全面的、稳健的提升。它能看图了(给它一张冰箱内容的照片,问能做什么菜,它能答);上下文窗口拉长,能处理整篇长文档;最直观的是它去考人类的试:模拟律师资格考试(UBE)从 GPT-3.5 的倒数 10% 区间,跳到了前 10%;生物奥赛、GRE、SAT、一堆 AP 考试,大量进入高分段。更关键的是‘幻觉变少、推理更稳’这种说不清却用得出来的体感——它犯低级错误的频率明显下降了。

但报告里,什么都没有

真正让圈内人愣住的,是那份 98 页的技术报告。它详细报告了 GPT-4 能做什么、在各种考试上多少分、做了哪些安全测试——但关于‘它是怎么造出来的’,几乎一片空白:参数量?不说。架构细节?不说。训练数据?不说。用了多少算力?不说。报告里白纸黑字写着,出于竞争格局和安全考量,不披露这些。

这是一个标志性的时刻,值得停下来体会。回想 2015 年 OpenAI 成立时的宣言——AGI 太重要,不能被垄断,所以我们开放共享。再看 2023 年这份什么都不说的报告。从 GPT-2 的‘分阶段发布’,到 GPT-3 的‘只开 API 不开权重’,到 GPT-4 的‘连方法都不告诉你’,这条‘越来越闭’的曲线,在今天画到了顶点。Open 这个词,成了公司名里一个略带讽刺的遗迹。

我能理解它的两条辩护(竞争对手就在身后、强模型方法泄露有滥用风险),但也必须诚实地说:这对整个科学共同体是个损失。GPT-4 是这个时代最重要的人造物之一,而我们这些外人,无法研究它、无法独立验证它的安全性声明、无法在它的方法上做科学积累。能力的巅峰,和透明度的谷底,在同一天到达。这正是 2019 年微软那笔投资埋下的伏笔——当商业竞争成为主旋律,‘开放’就成了最先被牺牲的承诺。

‘AGI 的火花’:一个危险又诱人的说法

几乎同时,微软研究院放出一篇 154 页的论文《Sparks of Artificial General Intelligence》,作者们拿 GPT-4 做了大量非常规测试——让它用代码画独角兽、解需要常识的物理谜题、跨领域组合知识——然后给出一个惊人的判断:GPT-4 展现出了‘通用人工智能的火花’,它的能力‘不能简单用记忆和插值解释’。

这篇论文我读得很纠结。一方面,里面的例子确实震撼,很难用‘随机鹦鹉’轻飘飘地打发——它表现出的跨领域迁移和组合能力,超出了我对‘统计模式匹配’的预期。另一方面,作者全部来自微软(OpenAI 最大的金主),‘AGI 火花’这种措辞既不严谨也不可证伪,营销味道很重,而且他们测的是一个我们看不到内部、也无法复现的黑箱。

我的态度是:认真对待它的能力,警惕对它的叙事。2017 年 NIPS 上 Rahimi 喊‘炼金术’的时候,我们至少还能看到炼金炉里的配方。现在炉子被焊死了,我们只能看着金子出炉,连它是不是金子都得靠厂商的话。GPT-4 是一座里程碑,它同时标记了能力的新高,和这个领域作为‘开放科学’的一次退潮。两件事,都得记住。

它到底强在哪

但报告里,什么都没有

‘AGI 的火花’:一个危险又诱人的说法

每周一封，<5 分钟读完