InstructGPT:用人类反馈,把‘会接话’的模型调成‘听话’的助手
// TL;DR
- 三步走:监督微调(SFT)→ 训练奖励模型(RM)→ 用 PPO 强化学习对齐。
- 对齐后的小模型在‘遵循指令、有用、无害’上完胜大它百倍的原版。
- RLHF 是连接‘强大’与‘好用’的关键一跃——也是 ChatGPT 的技术底座。
问题:强 ≠ 听话
GPT-3 很强,但它的训练目标是‘预测下一个词’,不是‘帮用户把事办好’。所以它经常文不对题、答非所问、或者一本正经地胡说。你问它一个问题,它可能反过来续写更多问题——因为训练数据里问题后面常跟着问题。‘能力’和‘有用’之间,差着一个对齐(alignment)。
RLHF 三步法
InstructGPT 用一套现在已成经典的三步流程来对齐:
- 第一步 SFT:雇人写‘理想回答’,用这些高质量问答对微调模型,先教它‘回答的样子’。
- 第二步 RM:让模型对同一问题生成多个回答,雇人按好坏排序,用这些排序训练一个‘奖励模型’——它学会了模仿人类的偏好打分。
- 第三步 RL:用 PPO(还记得 2017 年那个算法吗)让模型生成回答、用奖励模型打分、按分数优化。模型逐渐学会生成人类更喜欢的回答。
惊人的结果
标注员的评价里,13 亿参数的 InstructGPT 输出,比 1750 亿的原版 GPT-3 更受欢迎。小了 100 多倍,却更‘好用’。这说明一个深刻的事:在‘有用性’这个维度上,对齐的价值可能远超单纯堆规模。一个会十八般武艺但不听指挥的天才,不如一个本事普通但贴心靠谱的助手。
我的判断
这篇论文当时在圈外没什么水花,但我认为它是 GPT-3 之后最重要的一块拼图。它解决的不是‘让模型更强’,而是‘让模型的强能被人方便地调用’——这恰恰是从‘技术’到‘产品’最关键的一跃。把强大的能力装进一个听话、有用、无害的外壳里,这件事一旦做好,大模型就能从开发者的玩具,变成普通人的工具。我有种预感,OpenAI 接下来会把这套东西做成一个面向大众的产品。