session://14:29:33
~/ / posts / 2019-02-gpt2.md

“危险到不能发布”:GPT-2 与一场关于开放的争论

2019-02-14· 1 min read · [深度思考]
// TL;DR
  • GPT-2 把 GPT 放大到 15 亿参数,生成的长文连贯度惊人,zero-shot 能力初现。
  • OpenAI 采取分阶段发布,最初拒绝公开完整模型,理由是滥用风险。
  • ‘负责任披露’还是‘炒作 + 违背开放初心’?社区吵翻了。

模型本身

GPT-2 就是 GPT-1 的放大版:还是 Transformer 解码器,还是预测下一个词,但参数从 1.17 亿干到 15 亿,训练数据是从 Reddit 高赞链接爬的 40GB 文本(WebText)。效果上了一个台阶——给个开头,它能续写出段落级别连贯、风格统一的文章,甚至在没专门训练的情况下做一点翻译、问答、摘要(zero-shot)。这是“语言模型规模上去之后会涌现通用能力”的早期信号。

真正的爆点是发布策略

OpenAI 宣布:因为担心被用来批量生产假新闻、垃圾内容、钓鱼文本,决定不公开最大的 15 亿参数模型,只先放一个 1.24 亿的小号,后续视情况分阶段释放。一家名字里写着 Open 的机构,第一次选择不开源它最强的成果。

我站哪边

  • 支持方:AI 能力到了一定程度,无条件开源就是不负责任。生物、核能领域都有信息管制,AI 凭什么例外?
  • 反对方:这点生成能力造的假新闻,比起人工水军并无质变;‘危险论’更像免费营销,还违背了开放承诺。
  • 我的判断:两边都有道理,但这件事最大的价值是它’第一次’把’发布即决策’摆上了台面——以前发模型是纯学术行为,从 GPT-2 起,它变成了一个需要权衡社会影响的产品决策。

顺便预言一句:‘怕被滥用所以不全开’ 这个先例一旦开了,后面只会越来越多。开源与闭源的路线之争,从这一刻正式埋下。

大模型NLPAI安全行业动态
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。