“危险到不能发布”:GPT-2 与一场关于开放的争论
// TL;DR
- GPT-2 把 GPT 放大到 15 亿参数,生成的长文连贯度惊人,zero-shot 能力初现。
- OpenAI 采取分阶段发布,最初拒绝公开完整模型,理由是滥用风险。
- ‘负责任披露’还是‘炒作 + 违背开放初心’?社区吵翻了。
模型本身
GPT-2 就是 GPT-1 的放大版:还是 Transformer 解码器,还是预测下一个词,但参数从 1.17 亿干到 15 亿,训练数据是从 Reddit 高赞链接爬的 40GB 文本(WebText)。效果上了一个台阶——给个开头,它能续写出段落级别连贯、风格统一的文章,甚至在没专门训练的情况下做一点翻译、问答、摘要(zero-shot)。这是“语言模型规模上去之后会涌现通用能力”的早期信号。
真正的爆点是发布策略
OpenAI 宣布:因为担心被用来批量生产假新闻、垃圾内容、钓鱼文本,决定不公开最大的 15 亿参数模型,只先放一个 1.24 亿的小号,后续视情况分阶段释放。一家名字里写着 Open 的机构,第一次选择不开源它最强的成果。
我站哪边
- 支持方:AI 能力到了一定程度,无条件开源就是不负责任。生物、核能领域都有信息管制,AI 凭什么例外?
- 反对方:这点生成能力造的假新闻,比起人工水军并无质变;‘危险论’更像免费营销,还违背了开放承诺。
- 我的判断:两边都有道理,但这件事最大的价值是它’第一次’把’发布即决策’摆上了台面——以前发模型是纯学术行为,从 GPT-2 起,它变成了一个需要权衡社会影响的产品决策。
顺便预言一句:‘怕被滥用所以不全开’ 这个先例一旦开了,后面只会越来越多。开源与闭源的路线之争,从这一刻正式埋下。