全网变成吉卜力:当图像生成‘长进’了大模型本体

先说现象,因为它实在太典型了。三月底 GPT-4o 的原生图像生成一开放,几天之内,我的所有社交媒体时间线都变成了同一种东西:吉卜力画风的头像、吉卜力化的家庭合影、吉卜力风的时事梗图。OpenAI 的服务器被挤到不得不限流,Altman 在推特上半开玩笑地求大家‘让 GPU 喘口气’。这是继 2022 年 ChatGPT、2022 年 Stable Diffusion 之后,又一次教科书级的病毒式扩散。

‘原生’二字,是真正的技术分水岭

热闹之下,真正重要的是技术范式变了。回顾一下文生图这条线:2021 年 DALL·E、2022 年 Stable Diffusion,生图都是一个独立的扩散模型在干活——你给文本,它出图,本质上是个‘外挂’的专用工具,和那个会聊天的语言模型是两套系统。

GPT-4o 的原生生成把这件事内化了:生图不再是外接的扩散模型,而是多模态大模型本体的一种输出能力,和它输出文字共享同一个‘大脑’和同一套世界知识。这个区别带来的体验跃迁是质的:

指令遵循极强:你说‘一张写着 “开业大吉” 四个字的红色横幅,挂在一家煎饼摊上,左下角有只橘猫’,它能把这些约束(包括那四个清晰正确的汉字)几乎全满足——而过去的扩散模型最头疼的就是‘数清楚元素’和‘把字写对’。
对话式连续编辑:出图后你可以接着说‘把猫换成黑色,横幅再大一点’,它在原图基础上改,而不是重新抽卡。这是‘外挂扩散模型’很难做到的。
世界知识加持:它知道‘煎饼摊’长什么样、知道横幅的物理挂法,因为生图调用的是同一个见多识广的大模型。

一句话:图像从语言模型的‘附属插件’,变成了它‘母语’的一部分。这和 2020 年 ViT 证明‘视觉能用 Transformer’、2024 年 GPT-4o 把语音原生融合,是同一条大主线的延续——模态的边界在被一个统一的大模型不断溶解。多模态的终局,正在从‘多个专用模型拼接’,走向‘一个模型原生通感’。

狂欢的另一面:这次,版权的火烧到了‘风格’

但‘吉卜力刷屏’也立刻引爆了一场更尖锐的争论,而且它比以往的 AI 版权争议更难。以前争的是‘训练数据里用了我的图’,这次争的是‘模仿我的风格’——吉卜力、宫崎骏是在世的、风格极其鲜明且有人格象征意义的创作者。让 AI 几秒钟批量生产‘吉卜力风’,触碰的是一个全新的、法律和伦理都没准备好的地带:

风格本身不受版权保护(法律一般只保护具体作品,不保护‘画风’),但当 AI 能精准、规模化地复刻一位在世艺术家倾尽一生形成的辨识度,‘合法’和‘正当’之间裂开了一道巨大的缝。
宫崎骏本人曾公开表达过对 AI 生成动画的强烈厌恶,全网却在用 AI 把一切‘宫崎骏化’——这种反差让很多人感到不适。
这把 2018 年 Deepfake、2022 年 Stable Diffusion 时就埋下的‘生成式 AI 与创作者权益’的矛盾,从‘小圈子争论’推成了全民议题。

我的看法:这是又一次‘能力跑在治理前面’的标准剧情,而且这次跑得格外快、格外刺眼。技术上,原生多模态是了不起的进步,我为它鼓掌;但它也再次确认了我从 2018 年就记下的一个判断——生成式 AI 每强一分,‘什么是原创’‘创作者凭什么获得保护’这些问题就尖锐一分。全网的吉卜力狂欢很欢乐,但欢乐底下,是一整个创意行业在问:当模仿变得零成本且无限,我们这些靠风格吃饭的人,还剩下什么?这个问题,2025 年没有答案,但它再也无法被忽略了。

‘原生’二字,是真正的技术分水岭

狂欢的另一面:这次,版权的火烧到了‘风格’

每周一封，<5 分钟读完