PaLM 与思维链:让大模型‘把推理过程说出来’,它居然就更会算了

一个便宜到不可思议的技巧

先说思维链(Chain-of-Thought),因为它太反直觉了。以前问大模型一道数学应用题,直接要答案,它经常算错。研究者发现,只要在提示里加一句‘让我们一步步思考’,或者给它看几个‘带推理步骤’的示例,让它先把中间过程写出来再给答案——准确率就大幅提升。

直接问: 食堂有23个苹果，用了20个，又买了6个，现在有几个？ → 27 ❌(常错)
思维链: 让我们一步步想：原有23，用掉20剩3，再买6个，3+6=9 → 9 ✅
# 只是让它‘把草稿写出来’，正确率就上去了

这件事很深刻:模型本来就‘有’这个推理能力,只是直接逼它一步到位答不出来;给它空间把思路展开,能力就释放了。这暗示大模型内部的计算是‘逐 token 展开’的,中间步骤就是它的草稿纸。

Google 的 PaLM(5400 亿参数)把思维链发挥到极致,在一堆需要多步推理的难任务上成绩惊人。更重要的是它清晰展示了‘涌现能力’:很多任务上,模型从小到大,性能一直贴着地板(几乎是瞎猜),直到规模越过某个临界点,性能突然陡升。能力不是平滑长出来的,是‘跳’出来的。

这两件事合起来,改变了我对大模型的认知。第一,思维链说明:我们可能一直低估了现有模型的能力,只是没找对‘问法’——提示工程的天花板比想象中高。第二,涌现说明:你没法从小模型的表现外推出大模型会有什么本事,规模会解锁定性的新能力。

这俩结论叠加,有点让人后背发凉:把模型继续做大,可能会冒出我们既没预料、也没设计的新能力。这是机会,也是 2020 年‘随机鹦鹉’那批人担心的风险的根源。‘涌现’这个词,从此会高频出现在每一次关于大模型的讨论里。