grep -l #生成式AI posts/

#生成式AI

ls posts/ | grep 生成式AI

13 entries · 全部 →

→全网变成吉卜力:当图像生成‘长进’了大模型本体

三月底,OpenAI 给 GPT-4o 接上了原生图像生成,几天内社交媒体被‘吉卜力风格’的自拍和表情包淹没,服务器被挤到限流。狂欢之下是两件大事:图像生成从‘外挂的扩散模型’变成了大模型本体的能力;以及,关于‘模仿一种画风算不算侵权’的战火,被一次性点燃。

[深度思考] 3m

→Sora:当文生视频好到不像真的,OpenAI 顺势抛出了‘世界模拟器’的野心

Sora 放出的样片让整个内容行业失眠了一晚:一分钟、高清、镜头连贯、物理基本合理的视频,只来自一句话。但比效果更值得琢磨的,是 OpenAI 给它套的那个框——他们说这不只是个视频工具,而是通往‘世界模拟器’的一步。

[深度思考] 2m

→Stable Diffusion 开源:文生图的‘安卓时刻’

Stability AI 把一个高质量文生图模型完全开源,还能在消费级显卡上跑。一夜之间,文生图从少数公司的内测特权,变成了全世界开发者的开放工具。生态彻底炸开了。

[深度思考] 1m

→DALL·E 2:文生图跨过了‘能用’的门槛

OpenAI 的 DALL·E 2 让‘一句话生成图’的质量从简笔画跃升到照片级。把 CLIP 的理解力和扩散模型的生成力一焊接,文生图突然就‘成了’。

[产品实践] 1m

→扩散模型掀翻 GAN:生成式 AI 的‘改朝换代’

OpenAI 的论文证明:扩散模型在图像生成质量上首次全面超过 GAN。统治了生成领域多年的 GAN,迎来了真正的挑战者。这件事,两年后会以‘Stable Diffusion’的形式改变世界。

[论文解读] 1m

→CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号

新年第一周,OpenAI 一口气放出 CLIP 和 DALL·E。前者让模型用自然语言理解图像,后者让你用一句话生成图像。多模态的大门,被踹开了。

[论文解读] 2m

→BigGAN：把 GAN 做大，生成的图开始“以假乱真”

DeepMind 的 BigGAN 证明：把 GAN 的批量和参数堆大，配合一些稳定技巧，能生成 512×512 高保真的 ImageNet 图像。“规模”这味药，对生成模型同样灵。

[论文解读] 1m

→Deepfake 失控：当“眼见为实”开始失效

换脸技术从论文走进开源工具，普通人也能造出以假乱真的视频。技术中性，但这一次，滥用跑在了治理前面。我们该怎么办？

[深度思考] 1m

→World Models：让智能体先在“梦里”把本事练好

Ha 与 Schmidhuber 的 World Models：智能体先学一个环境的生成式“世界模型”，然后在这个想象的世界里训练策略。在梦里练车，是不是听起来很科幻？

[论文解读] 1m

→WaveNet：DeepMind 让机器一“个”采样点一个采样点地说话

DeepMind 发布 WaveNet：直接在原始音频波形上做自回归生成，每秒预测 16000 个采样点，合成语音的自然度大幅逼近真人。

[论文解读] 1m

→Prisma 刷屏：一篇论文到爆款 App 只用了十一个月

俄罗斯团队把神经风格迁移装进手机 App，Prisma 上线数周下载量破千万。学术论文到消费爆款的转化周期，被压缩到了一年以内。

[产品实践] 1m

→神经风格迁移：把你的自拍画成梵高

Gatys 等人发现：卷积网络的特征天然把“内容”和“风格”分开存放。优化一张图同时匹配两者，就能让照片穿上任何画家的笔触。

[论文解读] 1m

→DeepDream：当神经网络开始做梦，满屏都是狗

Google 开源 DeepDream：把图片往“让神经元更兴奋”的方向反向优化，得到布满狗脸和漩涡的迷幻图像。这是大众第一次直观看见网络内部学到了什么。