PaLM 与思维链:让大模型‘把推理过程说出来’,它居然就更会算了
// TL;DR
- PaLM:5400 亿参数稠密模型,在多项推理基准上大幅领先。
- Chain-of-Thought(思维链):提示模型‘一步步推理’,显著提升数学/逻辑表现。
- ‘涌现能力’被坐实:某些能力只在模型够大时,突然出现。
一个便宜到不可思议的技巧
先说思维链(Chain-of-Thought),因为它太反直觉了。以前问大模型一道数学应用题,直接要答案,它经常算错。研究者发现,只要在提示里加一句‘让我们一步步思考’,或者给它看几个‘带推理步骤’的示例,让它先把中间过程写出来再给答案——准确率就大幅提升。
直接问: 食堂有23个苹果,用了20个,又买了6个,现在有几个? → 27 ❌(常错)
思维链: 让我们一步步想:原有23,用掉20剩3,再买6个,3+6=9 → 9 ✅
# 只是让它‘把草稿写出来’,正确率就上去了
这件事很深刻:模型本来就‘有’这个推理能力,只是直接逼它一步到位答不出来;给它空间把思路展开,能力就释放了。这暗示大模型内部的计算是‘逐 token 展开’的,中间步骤就是它的草稿纸。
PaLM:涌现被坐实
Google 的 PaLM(5400 亿参数)把思维链发挥到极致,在一堆需要多步推理的难任务上成绩惊人。更重要的是它清晰展示了‘涌现能力’:很多任务上,模型从小到大,性能一直贴着地板(几乎是瞎猜),直到规模越过某个临界点,性能突然陡升。能力不是平滑长出来的,是‘跳’出来的。
我的判断
这两件事合起来,改变了我对大模型的认知。第一,思维链说明:我们可能一直低估了现有模型的能力,只是没找对‘问法’——提示工程的天花板比想象中高。第二,涌现说明:你没法从小模型的表现外推出大模型会有什么本事,规模会解锁定性的新能力。
这俩结论叠加,有点让人后背发凉:把模型继续做大,可能会冒出我们既没预料、也没设计的新能力。这是机会,也是 2020 年‘随机鹦鹉’那批人担心的风险的根源。‘涌现’这个词,从此会高频出现在每一次关于大模型的讨论里。