session://14:29:34
grep -l #生成式AI posts/

#生成式AI

ls posts/ | grep 生成式AI
13 entries · 全部 →
2025.03.26
全网变成吉卜力:当图像生成‘长进’了大模型本体
三月底,OpenAI 给 GPT-4o 接上了原生图像生成,几天内社交媒体被‘吉卜力风格’的自拍和表情包淹没,服务器被挤到限流。狂欢之下是两件大事:图像生成从‘外挂的扩散模型’变成了大模型本体的能力;以及,关于‘模仿一种画风算不算侵权’的战火,被一次性点燃。
[深度思考] 3m
2024.02.15
Sora:当文生视频好到不像真的,OpenAI 顺势抛出了‘世界模拟器’的野心
Sora 放出的样片让整个内容行业失眠了一晚:一分钟、高清、镜头连贯、物理基本合理的视频,只来自一句话。但比效果更值得琢磨的,是 OpenAI 给它套的那个框——他们说这不只是个视频工具,而是通往‘世界模拟器’的一步。
[深度思考] 2m
2022.08.22
Stable Diffusion 开源:文生图的‘安卓时刻’
Stability AI 把一个高质量文生图模型完全开源,还能在消费级显卡上跑。一夜之间,文生图从少数公司的内测特权,变成了全世界开发者的开放工具。生态彻底炸开了。
[深度思考] 1m
2022.04.06
DALL·E 2:文生图跨过了‘能用’的门槛
OpenAI 的 DALL·E 2 让‘一句话生成图’的质量从简笔画跃升到照片级。把 CLIP 的理解力和扩散模型的生成力一焊接,文生图突然就‘成了’。
[产品实践] 1m
2021.05.11
扩散模型掀翻 GAN:生成式 AI 的‘改朝换代’
OpenAI 的论文证明:扩散模型在图像生成质量上首次全面超过 GAN。统治了生成领域多年的 GAN,迎来了真正的挑战者。这件事,两年后会以‘Stable Diffusion’的形式改变世界。
[论文解读] 1m
2021.01.05
CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号
新年第一周,OpenAI 一口气放出 CLIP 和 DALL·E。前者让模型用自然语言理解图像,后者让你用一句话生成图像。多模态的大门,被踹开了。
[论文解读] 2m
2018.09.28
BigGAN:把 GAN 做大,生成的图开始“以假乱真”
DeepMind 的 BigGAN 证明:把 GAN 的批量和参数堆大,配合一些稳定技巧,能生成 512×512 高保真的 ImageNet 图像。“规模”这味药,对生成模型同样灵。
[论文解读] 1m
2018.08.20
Deepfake 失控:当“眼见为实”开始失效
换脸技术从论文走进开源工具,普通人也能造出以假乱真的视频。技术中性,但这一次,滥用跑在了治理前面。我们该怎么办?
[深度思考] 1m
2018.06.27
World Models:让智能体先在“梦里”把本事练好
Ha 与 Schmidhuber 的 World Models:智能体先学一个环境的生成式“世界模型”,然后在这个想象的世界里训练策略。在梦里练车,是不是听起来很科幻?
[论文解读] 1m
2016.09.08
WaveNet:DeepMind 让机器一“个”采样点一个采样点地说话
DeepMind 发布 WaveNet:直接在原始音频波形上做自回归生成,每秒预测 16000 个采样点,合成语音的自然度大幅逼近真人。
[论文解读] 1m
2016.07.20
Prisma 刷屏:一篇论文到爆款 App 只用了十一个月
俄罗斯团队把神经风格迁移装进手机 App,Prisma 上线数周下载量破千万。学术论文到消费爆款的转化周期,被压缩到了一年以内。
[产品实践] 1m
2015.08.26
神经风格迁移:把你的自拍画成梵高
Gatys 等人发现:卷积网络的特征天然把“内容”和“风格”分开存放。优化一张图同时匹配两者,就能让照片穿上任何画家的笔触。
[论文解读] 1m
2015.07.01
DeepDream:当神经网络开始做梦,满屏都是狗
Google 开源 DeepDream:把图片往“让神经元更兴奋”的方向反向优化,得到布满狗脸和漩涡的迷幻图像。这是大众第一次直观看见网络内部学到了什么。
[短思考] 1m