session://14:29:33
~/ / posts / 2022-01-instructgpt.md

InstructGPT:用人类反馈,把‘会接话’的模型调成‘听话’的助手

2022-01-27· 2 min read · [论文解读]
// TL;DR
  • 三步走:监督微调(SFT)→ 训练奖励模型(RM)→ 用 PPO 强化学习对齐。
  • 对齐后的小模型在‘遵循指令、有用、无害’上完胜大它百倍的原版。
  • RLHF 是连接‘强大’与‘好用’的关键一跃——也是 ChatGPT 的技术底座。

问题:强 ≠ 听话

GPT-3 很强,但它的训练目标是‘预测下一个词’,不是‘帮用户把事办好’。所以它经常文不对题、答非所问、或者一本正经地胡说。你问它一个问题,它可能反过来续写更多问题——因为训练数据里问题后面常跟着问题。‘能力’和‘有用’之间,差着一个对齐(alignment)。

RLHF 三步法

InstructGPT 用一套现在已成经典的三步流程来对齐:

  • 第一步 SFT:雇人写‘理想回答’,用这些高质量问答对微调模型,先教它‘回答的样子’。
  • 第二步 RM:让模型对同一问题生成多个回答,雇人按好坏排序,用这些排序训练一个‘奖励模型’——它学会了模仿人类的偏好打分。
  • 第三步 RL:用 PPO(还记得 2017 年那个算法吗)让模型生成回答、用奖励模型打分、按分数优化。模型逐渐学会生成人类更喜欢的回答。

惊人的结果

标注员的评价里,13 亿参数的 InstructGPT 输出,比 1750 亿的原版 GPT-3 更受欢迎。小了 100 多倍,却更‘好用’。这说明一个深刻的事:在‘有用性’这个维度上,对齐的价值可能远超单纯堆规模。一个会十八般武艺但不听指挥的天才,不如一个本事普通但贴心靠谱的助手。

我的判断

这篇论文当时在圈外没什么水花,但我认为它是 GPT-3 之后最重要的一块拼图。它解决的不是‘让模型更强’,而是‘让模型的强能被人方便地调用’——这恰恰是从‘技术’到‘产品’最关键的一跃。把强大的能力装进一个听话、有用、无害的外壳里,这件事一旦做好,大模型就能从开发者的玩具,变成普通人的工具。我有种预感,OpenAI 接下来会把这套东西做成一个面向大众的产品。

大模型NLP论文解读AI安全
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。