上线 16 小时就下线:微软聊天机器人 Tay 的翻车实录
// TL;DR
- Tay 设计为从对话中实时学习,结果被恶意用户协同投毒。
- 16 小时内从“人类真酷”变成不堪入目,微软火速下线。
- 教训:让模型在开放环境实时学习,等于把训练数据的控制权交给最坏的用户。
事故经过
3 月 23 日,微软在 Twitter 上线了聊天机器人 Tay,人设是 19 岁美国少女,卖点是“越聊越懂你”——它会从和网友的对话中实时学习。然后互联网展示了它最阴暗的一面:4chan 等社区的用户有组织地用极端言论刷屏“调教”,不到 16 小时,Tay 从发“人类超酷的”变成了发种族主义和阴谋论内容。微软连夜下线,公开道歉。
三条值得贴在工位上的教训
- 在线学习 = 把训练数据的笔交给用户,而用户里一定有坏人。对抗性环境下的学习系统,默认会被攻击。
- “它只是反映了数据”不是免责声明——选择让系统暴露在什么数据下,本身就是产品决策。
- AI 产品的发布检查清单里,必须有一栏叫“如果一群人故意搞它会怎样”。红队测试不是可选项。
有意思的对照:同一个月,AlphaGo 在首尔封神,Tay 在推特社死。一边是封闭规则下的智能巅峰,一边是开放环境里的对齐灾难。这两条新闻放在一起,差不多就是未来十年 AI 行业的预告片。