GPT-4o 的丝滑语音,和同一周悄悄解散的‘超级对齐’团队

把同一周的两件事放在一起看,才能读懂 2024 年 OpenAI 的真实状态。

台前:GPT-4o,那个会‘呼吸’的语音

GPT-4o 的 o 是 omni(全能)——它把文本、音频、视觉真正统一进一个模型,而不是像以前那样‘语音转文字→文字模型→文字转语音’三段拼接。少了拼接,延迟就压到了几百毫秒,接近真人对话的节奏。发布会上的实时语音演示让人头皮发麻:它能被打断、能根据你的语气调整自己的情绪、能讲笑话时带点‘忍笑’的腔调、能用夸张或温柔的声线念同一句话。那一刻,2013 年电影《her》里的萨曼莎,突然有了技术原型。

从产品看这是教科书级的一手:它没追求‘更高的 benchmark’,而是把交互的‘人味’做到了新高度。语音是比打字低得多的交互门槛,情感化的语音更是直接通向情感连接。这也再次拨动了我从 2022 年就一直记的那根‘人机关系’的弦——当 AI 的声音温柔到让你想倾诉,普通人和它的情感边界会变得很模糊。OpenAI 显然很清楚这一点(发布会刻意做了暧昧调情的演示,后来还因为声音太像斯嘉丽·约翰逊惹了官司)。

幕后:守夜人走了

就在 GPT-4o 刷屏的同时,另一条线悄悄断了。2023 年 7 月,OpenAI 曾高调成立‘超级对齐(Superalignment)’团队,由首席科学家 Ilya Sutskever 和 Jan Leike 联合领衔,公开承诺投入 20% 的算力,用四年时间解决‘如何对齐比人类更聪明的 AI’这个终极问题。这被视为 OpenAI‘我们认真对待安全’的最硬背书。

结果不到一年,团队解散了。Ilya——OpenAI 的灵魂人物、2023 年那场宫斗里一度站在解雇 Altman 一边、后来又反悔的关键先生——离职了。几乎同时,Jan Leike 也走了,而且走得很不客气。他在推特上公开开炮,大意是:过去这些年,公司里‘亮眼的产品’的优先级,一步步盖过了安全文化和流程;承诺给超级对齐的算力迟迟不到位;他和领导层在‘该把多少资源押在为更强的 AI 做准备上’这个核心问题上,已经分歧到无法共事。

两个画面,一个结论

把这两件事并置,2024 年 OpenAI 的状态就很清楚了:产品引擎全速狂奔,安全的刹车系统在松动甚至被拆解。这不是孤立事件,而是 2023 年那场宫斗结局的自然延续——发展派赢了,安全派出局,然后这条路线的逻辑一路贯彻到了 2024:能力和体验的高歌猛进,伴随着安全承诺的悄然缩水。

我不想做廉价的道德审判,商业竞争的残酷是真实的——你慢一步,Anthropic 和 Google 就上来了,守不住市场,你的‘负责任’也就没了舞台。但 Leike 那句话值得被反复引用:当一个公司同时说‘我们的技术可能威胁人类存亡’和‘我们要尽快把它做得更强更好用’,而当两者冲突时,后者总是赢——那么前者那句话,到底还有几分是真心,几分是话术?GPT-4o 的语音很美,守夜人离开的背影很冷。2024 年 5 月这一周,把这个行业的根本张力,演成了一出无声的对照剧。

台前:GPT-4o,那个会‘呼吸’的语音

幕后:守夜人走了

两个画面,一个结论

每周一封，<5 分钟读完