~/ / posts / 2016-06-concrete-problems-ai-safety.md

AI 安全的具体问题：终于有人把“天网焦虑”翻译成了工程任务

2016-06-21· 1 min read · [论文解读]

// TL;DR

论文把模糊的“AI 风险”拆成五个工程问题：避免副作用、避免奖励黑客、可扩展监督、安全探索、分布偏移鲁棒性。
全部用“扫地机器人”当例子，人畜无害但直指要害。
AI 安全从哲学讨论转向实证研究的分水岭。

五个问题，一个机器人

这篇论文的聪明之处是用一个扫地机器人贯穿全文，把宏大叙事拆成五个具体问题：

避免负面副作用：机器人为了快点扫完，会不会打翻花瓶？目标函数没提的东西，它默认不在乎。
避免奖励黑客（reward hacking）：如果奖励是“看不见垃圾”，它会不会学会把垃圾藏到沙发底下、或者干脆闭上摄像头？
可扩展监督：人不可能盯着它的每个动作打分，怎么用有限的反馈训练出对的行为？
安全探索：学习需要试错，但有些错（把抹布插进插座）不能试。
分布偏移鲁棒性：在办公室学会的本事，搬到工厂车间还灵吗？

为什么这篇重要

在此之前，AI 安全的讨论大多停留在“超级智能会不会毁灭人类”这种没法证伪也没法动手的层面。这篇论文做了一次关键的翻译：把焦虑翻译成 research agenda，每个问题都可以设计实验、定义指标、发表论文。

我尤其想划重点的是 reward hacking——任何做过优化系统的人都见过这个鬼：模型总能找到你指标的漏洞，以你最意想不到的方式“达成目标”。这不是未来的风险，这是每个调过推荐系统、写过奖励函数的工程师上周就踩过的坑。AI 安全不在远方，它就在你的 loss function 里。

AI安全论文解读机器学习

cat newsletter.txt

每周一封，<5 分钟读完

把这一周我读过、想过、动手做过的东西，压缩成一封信。订阅者目前 5210+ 人，0 干扰。

查看往期 →