grep -l #计算机视觉 posts/

#计算机视觉

ls posts/ | grep 计算机视觉

16 entries · 全部 →

→Sora:当文生视频好到不像真的,OpenAI 顺势抛出了‘世界模拟器’的野心

Sora 放出的样片让整个内容行业失眠了一晚:一分钟、高清、镜头连贯、物理基本合理的视频,只来自一句话。但比效果更值得琢磨的,是 OpenAI 给它套的那个框——他们说这不只是个视频工具,而是通往‘世界模拟器’的一步。

[深度思考] 2m

→Stable Diffusion 开源:文生图的‘安卓时刻’

Stability AI 把一个高质量文生图模型完全开源,还能在消费级显卡上跑。一夜之间,文生图从少数公司的内测特权,变成了全世界开发者的开放工具。生态彻底炸开了。

[深度思考] 1m

→DALL·E 2:文生图跨过了‘能用’的门槛

OpenAI 的 DALL·E 2 让‘一句话生成图’的质量从简笔画跃升到照片级。把 CLIP 的理解力和扩散模型的生成力一焊接,文生图突然就‘成了’。

[产品实践] 1m

→扩散模型掀翻 GAN:生成式 AI 的‘改朝换代’

OpenAI 的论文证明:扩散模型在图像生成质量上首次全面超过 GAN。统治了生成领域多年的 GAN,迎来了真正的挑战者。这件事,两年后会以‘Stable Diffusion’的形式改变世界。

[论文解读] 1m

→CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号

新年第一周,OpenAI 一口气放出 CLIP 和 DALL·E。前者让模型用自然语言理解图像,后者让你用一句话生成图像。多模态的大门,被踹开了。

[论文解读] 2m

→ViT:Transformer 攻进视觉,CNN 的主场也守不住了

Google 的 Vision Transformer 把图片切成 16×16 的小块当‘单词’,直接喂给标准 Transformer。在足够大的数据上,它打赢了精心设计的 CNN。一个架构,开始通吃文本和图像。

[论文解读] 1m

→自监督的春天:SimCLR 证明‘不用标签’也能学出好表征

Hinton 组的 SimCLR 用对比学习刷新自监督视觉表征的纪录:同一张图的两个增强视角拉近、不同图推远,几乎追平有监督预训练。标注的霸权松动了。

[论文解读] 1m

→BigGAN：把 GAN 做大，生成的图开始“以假乱真”

DeepMind 的 BigGAN 证明：把 GAN 的批量和参数堆大，配合一些稳定技巧，能生成 512×512 高保真的 ImageNet 图像。“规模”这味药，对生成模型同样灵。

[论文解读] 1m

→Deepfake 失控：当“眼见为实”开始失效

换脸技术从论文走进开源工具，普通人也能造出以假乱真的视频。技术中性，但这一次，滥用跑在了治理前面。我们该怎么办？

[深度思考] 1m

→把模型塞进手机：MobileNet 们掀起的“轻量化”运动

深度可分离卷积、通道剪裁、量化……这一两年大家集体醒悟：模型不光要准，还得跑得起。端侧 AI 的工程学，正式成为一门显学。

[技术教程] 1m

→Hinton 的胶囊网络：对自己发明的东西最不满意的人

Hinton 发布 Capsule Networks：用向量“胶囊”取代标量神经元，动态路由取代池化。CNN 之父亲自下场革 CNN 的命，虽然这次未必成功。

→Prisma 刷屏：一篇论文到爆款 App 只用了十一个月

俄罗斯团队把神经风格迁移装进手机 App，Prisma 上线数周下载量破千万。学术论文到消费爆款的转化周期，被压缩到了一年以内。

[产品实践] 1m

→ResNet：把网络做到 152 层的那个“恒等捷径”

何恺明团队的 ResNet 横扫 ILSVRC 2015 所有项目：残差连接让 152 层网络的训练比 22 层还顺利，ImageNet 错误率降到 3.57%，首次超过人类水平。

[论文解读] 1m

→神经风格迁移：把你的自拍画成梵高

Gatys 等人发现：卷积网络的特征天然把“内容”和“风格”分开存放。优化一张图同时匹配两者，就能让照片穿上任何画家的笔触。

[论文解读] 1m

→DeepDream：当神经网络开始做梦，满屏都是狗

Google 开源 DeepDream：把图片往“让神经元更兴奋”的方向反向优化，得到布满狗脸和漩涡的迷幻图像。这是大众第一次直观看见网络内部学到了什么。

→目标检测的疯狂六月：Faster R-CNN 和 YOLO 同月亮相

一个月内两篇目标检测里程碑：Faster R-CNN 用 RPN 把候选框也交给网络学，YOLO 干脆把检测变成一次回归。两条路线就此分野。

[论文解读] 1m