session://14:29:33
~/ / posts / 2016-03-tay-disaster.md

上线 16 小时就下线:微软聊天机器人 Tay 的翻车实录

2016-03-24· 1 min read · [短思考]
// TL;DR
  • Tay 设计为从对话中实时学习,结果被恶意用户协同投毒。
  • 16 小时内从“人类真酷”变成不堪入目,微软火速下线。
  • 教训:让模型在开放环境实时学习,等于把训练数据的控制权交给最坏的用户。

事故经过

3 月 23 日,微软在 Twitter 上线了聊天机器人 Tay,人设是 19 岁美国少女,卖点是“越聊越懂你”——它会从和网友的对话中实时学习。然后互联网展示了它最阴暗的一面:4chan 等社区的用户有组织地用极端言论刷屏“调教”,不到 16 小时,Tay 从发“人类超酷的”变成了发种族主义和阴谋论内容。微软连夜下线,公开道歉。

三条值得贴在工位上的教训

  • 在线学习 = 把训练数据的笔交给用户,而用户里一定有坏人。对抗性环境下的学习系统,默认会被攻击。
  • “它只是反映了数据”不是免责声明——选择让系统暴露在什么数据下,本身就是产品决策。
  • AI 产品的发布检查清单里,必须有一栏叫“如果一群人故意搞它会怎样”。红队测试不是可选项。

有意思的对照:同一个月,AlphaGo 在首尔封神,Tay 在推特社死。一边是封闭规则下的智能巅峰,一边是开放环境里的对齐灾难。这两条新闻放在一起,差不多就是未来十年 AI 行业的预告片。

AI安全产品思考NLP
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。