grep -l #论文解读 posts/

#论文解读

ls posts/ | grep 论文解读

35 entries · 全部 →

→o1:OpenAI 换了个维度卷——不再卷模型多大,而是卷它‘想多久’

o1 是 2024 年最重要的技术转向。它不靠把模型做得更大,而是让模型在回答前先‘想很久’——生成一长串内部推理,用强化学习训练这个思考过程。一个全新的、和参数规模并列的扩展维度被打开了:推理时算力。

[论文解读] 4m

→年末双响:Gemini 的‘原生多模态’豪赌,与 Mixtral 的开源偷袭

年底,Google 用 Gemini 正式向 GPT-4 宣战,主打‘从一开始就多模态’;几天后,法国小公司 Mistral 不发布会、不预热,直接甩出一个磁力链接——开源 MoE 模型 Mixtral,性能对标 GPT-3.5。一个用排面,一个用姿态,各自说明了 2023 的两极。

[论文解读] 3m

→GPT-4 与‘AGI 的火花’:能力封顶的一天,也是 OpenAI 彻底闭嘴的一天

GPT-4 发布,能力又上一个台阶:能看图、能过专业考试、推理明显更稳。但它的技术报告史无前例地什么都没说——参数、架构、数据、算力,一概‘出于竞争和安全考虑’不予披露。那个名字里写着 Open 的公司,这一天起,正式闭源了。

[论文解读] 3m

→PaLM 与思维链:让大模型‘把推理过程说出来’,它居然就更会算了

Google 的 5400 亿参数 PaLM,配合一个朴素到离谱的技巧——思维链提示(让模型‘一步步想’)——在数学和推理任务上能力大涨。规模 + 提示方式,解锁了‘涌现’。

[论文解读] 2m

→Chinchilla:原来过去两年,我们的大模型都‘喂不饱’

DeepMind 的 Chinchilla 修正了缩放定律:给定算力,大家普遍把模型做得太大、数据喂得太少。一个 700 亿的 Chinchilla,靠喂更多数据,打败了 2800 亿的 Gopher。

[论文解读] 1m

→InstructGPT:用人类反馈,把‘会接话’的模型调成‘听话’的助手

OpenAI 的 InstructGPT 用 RLHF(基于人类反馈的强化学习)对齐 GPT-3。一个 13 亿参数的对齐模型,在‘听不听话’上击败了 175 亿的原版。这套方法,就是十个月后 ChatGPT 的内核。

[论文解读] 2m

→Gopher 与 RETRO:DeepMind 说,光把模型做大可能不够

DeepMind 一口气放出 2800 亿参数的 Gopher 和一个反潮流的 RETRO。RETRO 用‘检索外部文本库’的方式,让一个小 25 倍的模型追平大模型。规模不是唯一的解。

[论文解读] 2m

→扩散模型掀翻 GAN:生成式 AI 的‘改朝换代’

OpenAI 的论文证明:扩散模型在图像生成质量上首次全面超过 GAN。统治了生成领域多年的 GAN,迎来了真正的挑战者。这件事,两年后会以‘Stable Diffusion’的形式改变世界。

[论文解读] 1m

→CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号

新年第一周,OpenAI 一口气放出 CLIP 和 DALL·E。前者让模型用自然语言理解图像,后者让你用一句话生成图像。多模态的大门,被踹开了。

[论文解读] 2m

→AlphaFold2:一个困扰生物学 50 年的问题,基本被解决了

CASP14 结果公布:DeepMind 的 AlphaFold2 预测蛋白质结构的精度,达到了实验方法的水平。组织者直接宣布:蛋白质折叠这个 50 年的大难题,在很大程度上被解决了。

[深度思考] 1m

→ViT:Transformer 攻进视觉,CNN 的主场也守不住了

Google 的 Vision Transformer 把图片切成 16×16 的小块当‘单词’,直接喂给标准 Transformer。在足够大的数据上,它打赢了精心设计的 CNN。一个架构,开始通吃文本和图像。

[论文解读] 1m

→GPT-3:1750 亿参数,和一个叫‘提示词’的新交互方式

OpenAI 发布 1750 亿参数的 GPT-3。最震撼的不是参数,是 few-shot:不微调、不改一个权重,只在提示词里给几个例子,它就能上手新任务。人机交互的方式,可能要变了。

[论文解读] 1m

→自监督的春天:SimCLR 证明‘不用标签’也能学出好表征

Hinton 组的 SimCLR 用对比学习刷新自监督视觉表征的纪录:同一张图的两个增强视角拉近、不同图推远,几乎追平有监督预训练。标注的霸权松动了。

[论文解读] 1m

→缩放定律:OpenAI 把‘大力出奇迹’写成了公式

Kaplan 等人发现:语言模型的损失随参数量、数据量、算力呈幂律下降,跨越七个数量级依然平滑可预测。‘scale works’从信仰变成了可外推的工程公式。

[论文解读] 1m

→双下降:更大的模型为什么没有像教科书说的那样过拟合？

OpenAI 的‘深度双下降’揭示一个反常识现象:测试误差随模型变大,先降后升(经典偏差-方差),然后……又降。我们对‘过拟合’的理解,可能从一开始就太简单了。

[深度思考] 1m

→T5:把所有 NLP 任务都变成‘文本进、文本出’

Google 的 T5 提出一个极简又极强的统一框架:翻译、摘要、分类、问答——通通当成‘文本到文本’的生成任务来做。一篇论文,一套范式,顺便把迁移学习的各种选择系统地扫了一遍。

[论文解读] 1m

→BERT 屠榜：双向预训练把 NLP 带进“微调时代”

Google 发布 BERT：用掩码语言模型做双向预训练，在 11 项 NLP 任务上集体刷新 SOTA，GLUE 榜单一夜变天。预训练大模型 + 微调，成了 NLP 的新默认。

[论文解读] 1m

→BigGAN：把 GAN 做大，生成的图开始“以假乱真”

DeepMind 的 BigGAN 证明：把 GAN 的批量和参数堆大，配合一些稳定技巧，能生成 512×512 高保真的 ImageNet 图像。“规模”这味药，对生成模型同样灵。

[论文解读] 1m

→World Models：让智能体先在“梦里”把本事练好

Ha 与 Schmidhuber 的 World Models：智能体先学一个环境的生成式“世界模型”，然后在这个想象的世界里训练策略。在梦里练车，是不是听起来很科幻？

[论文解读] 1m

→GPT-1：OpenAI 押注“预训练 + 微调”的第一张牌

OpenAI 发布 GPT：用 Transformer 解码器在大量无标注文本上做语言模型预训练，再微调到各类任务。一个模型打多个任务的范式，开始成型。

[论文解读] 1m

→AlphaZero：一套算法通吃围棋、国象、将棋

DeepMind 把 Zero 配方泛化：同一套算法、同一组超参数，从零自学围棋、国际象棋、将棋，分别在数小时内超越各自领域最强程序。通用性宣言。

[论文解读] 1m

→Hinton 的胶囊网络：对自己发明的东西最不满意的人

Hinton 发布 Capsule Networks：用向量“胶囊”取代标量神经元，动态路由取代池化。CNN 之父亲自下场革 CNN 的命，虽然这次未必成功。

→AlphaGo Zero：扔掉人类棋谱，三天登顶

Nature 新论文：AlphaGo Zero 不用任何人类棋谱，从随机落子开始纯自我对弈，三天超越击败李世石的版本，40 天超越所有旧版。人类知识从起点变成了天花板。

[论文解读] 1m

→PPO：把策略优化做成“人人能跑”的默认选项

OpenAI 发布 PPO：用一个裁剪过的目标函数替代 TRPO 的二阶约束，几行代码实现接近的效果。简单、稳、好调——它大概率会成为 RL 的默认算法。

[论文解读] 1m

→Attention Is All You Need：八个人把 RNN 送进了历史

Google 八人组的 Transformer 论文挂上 arXiv：不要循环、不要卷积，纯注意力机制做序列建模，翻译质量和训练速度双双碾压。这篇必须精读。

[论文解读] 2m

→Libratus 血洗德扑职业牌手：不完全信息博弈也失守了

CMU 的 Libratus 在 20 天 12 万手一对一无限注德扑中，以 177 万筹码的巨大优势击败四位顶尖职业牌手。虚张声势这件事，机器干得比人还好。

[论文解读] 1m

→谷歌翻译换引擎：GNMT 一夜之间把错误率砍掉六成

Google 发布 GNMT 神经机器翻译系统并直接上线中英翻译：8 层 LSTM 编解码器加注意力机制，翻译错误率较老系统下降 55-85%，十年统计机器翻译时代谢幕。

[论文解读] 1m

→WaveNet：DeepMind 让机器一“个”采样点一个采样点地说话

DeepMind 发布 WaveNet：直接在原始音频波形上做自回归生成，每秒预测 16000 个采样点，合成语音的自然度大幅逼近真人。

[论文解读] 1m

→AI 安全的具体问题：终于有人把“天网焦虑”翻译成了工程任务

Google Brain、OpenAI 等联合发表 Concrete Problems in AI Safety：把 AI 安全拆成五个可研究的具体问题，从扫地机器人打翻花瓶讲起。

[论文解读] 1m

→Nature 头条：AlphaGo 五比零横扫欧洲围棋冠军

DeepMind 在 Nature 公布 AlphaGo：策略网络 + 价值网络 + 蒙特卡洛树搜索，去年十月已经 5:0 击败欧洲冠军樊麾。围棋这座“十年内攻不下”的山，被提前攻了。

[论文解读] 1m

→ResNet：把网络做到 152 层的那个“恒等捷径”

何恺明团队的 ResNet 横扫 ILSVRC 2015 所有项目：残差连接让 152 层网络的训练比 22 层还顺利，ImageNet 错误率降到 3.57%，首次超过人类水平。

[论文解读] 1m

→神经风格迁移：把你的自拍画成梵高

Gatys 等人发现：卷积网络的特征天然把“内容”和“风格”分开存放。优化一张图同时匹配两者，就能让照片穿上任何画家的笔触。

[论文解读] 1m

→目标检测的疯狂六月：Faster R-CNN 和 YOLO 同月亮相

一个月内两篇目标检测里程碑：Faster R-CNN 用 RPN 把候选框也交给网络学，YOLO 干脆把检测变成一次回归。两条路线就此分野。

[论文解读] 1m

→Hinton 的知识蒸馏：让小模型喝下大模型的“暗知识”

Distilling the Knowledge in a Neural Network：用大模型的软标签训练小模型，效果远超直接用硬标签训练。“暗知识”这个词从此进入词典。

[论文解读] 1m

→DQN 登上 Nature：一个网络学会了 49 个雅达利游戏

DeepMind 的 DQN 论文登上 Nature 封面：同一套网络结构和超参数，只看屏幕像素和分数，学会了 49 个雅达利游戏，一半以上超过人类测试员。

[论文解读] 1m