session://14:29:34
grep -l #论文解读 posts/

#论文解读

ls posts/ | grep 论文解读
35 entries · 全部 →
2024.09.12
o1:OpenAI 换了个维度卷——不再卷模型多大,而是卷它‘想多久’
o1 是 2024 年最重要的技术转向。它不靠把模型做得更大,而是让模型在回答前先‘想很久’——生成一长串内部推理,用强化学习训练这个思考过程。一个全新的、和参数规模并列的扩展维度被打开了:推理时算力。
[论文解读] 4m
2023.12.11
年末双响:Gemini 的‘原生多模态’豪赌,与 Mixtral 的开源偷袭
年底,Google 用 Gemini 正式向 GPT-4 宣战,主打‘从一开始就多模态’;几天后,法国小公司 Mistral 不发布会、不预热,直接甩出一个磁力链接——开源 MoE 模型 Mixtral,性能对标 GPT-3.5。一个用排面,一个用姿态,各自说明了 2023 的两极。
[论文解读] 3m
2023.03.14
GPT-4 与‘AGI 的火花’:能力封顶的一天,也是 OpenAI 彻底闭嘴的一天
GPT-4 发布,能力又上一个台阶:能看图、能过专业考试、推理明显更稳。但它的技术报告史无前例地什么都没说——参数、架构、数据、算力,一概‘出于竞争和安全考虑’不予披露。那个名字里写着 Open 的公司,这一天起,正式闭源了。
[论文解读] 3m
2022.04.04
PaLM 与思维链:让大模型‘把推理过程说出来’,它居然就更会算了
Google 的 5400 亿参数 PaLM,配合一个朴素到离谱的技巧——思维链提示(让模型‘一步步想’)——在数学和推理任务上能力大涨。规模 + 提示方式,解锁了‘涌现’。
[论文解读] 2m
2022.03.29
Chinchilla:原来过去两年,我们的大模型都‘喂不饱’
DeepMind 的 Chinchilla 修正了缩放定律:给定算力,大家普遍把模型做得太大、数据喂得太少。一个 700 亿的 Chinchilla,靠喂更多数据,打败了 2800 亿的 Gopher。
[论文解读] 1m
2022.01.27
InstructGPT:用人类反馈,把‘会接话’的模型调成‘听话’的助手
OpenAI 的 InstructGPT 用 RLHF(基于人类反馈的强化学习)对齐 GPT-3。一个 13 亿参数的对齐模型,在‘听不听话’上击败了 175 亿的原版。这套方法,就是十个月后 ChatGPT 的内核。
[论文解读] 2m
2021.12.08
Gopher 与 RETRO:DeepMind 说,光把模型做大可能不够
DeepMind 一口气放出 2800 亿参数的 Gopher 和一个反潮流的 RETRO。RETRO 用‘检索外部文本库’的方式,让一个小 25 倍的模型追平大模型。规模不是唯一的解。
[论文解读] 2m
2021.05.11
扩散模型掀翻 GAN:生成式 AI 的‘改朝换代’
OpenAI 的论文证明:扩散模型在图像生成质量上首次全面超过 GAN。统治了生成领域多年的 GAN,迎来了真正的挑战者。这件事,两年后会以‘Stable Diffusion’的形式改变世界。
[论文解读] 1m
2021.01.05
CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号
新年第一周,OpenAI 一口气放出 CLIP 和 DALL·E。前者让模型用自然语言理解图像,后者让你用一句话生成图像。多模态的大门,被踹开了。
[论文解读] 2m
2020.11.30
AlphaFold2:一个困扰生物学 50 年的问题,基本被解决了
CASP14 结果公布:DeepMind 的 AlphaFold2 预测蛋白质结构的精度,达到了实验方法的水平。组织者直接宣布:蛋白质折叠这个 50 年的大难题,在很大程度上被解决了。
[深度思考] 1m
2020.10.22
ViT:Transformer 攻进视觉,CNN 的主场也守不住了
Google 的 Vision Transformer 把图片切成 16×16 的小块当‘单词’,直接喂给标准 Transformer。在足够大的数据上,它打赢了精心设计的 CNN。一个架构,开始通吃文本和图像。
[论文解读] 1m
2020.05.28
GPT-3:1750 亿参数,和一个叫‘提示词’的新交互方式
OpenAI 发布 1750 亿参数的 GPT-3。最震撼的不是参数,是 few-shot:不微调、不改一个权重,只在提示词里给几个例子,它就能上手新任务。人机交互的方式,可能要变了。
[论文解读] 1m
2020.02.13
自监督的春天:SimCLR 证明‘不用标签’也能学出好表征
Hinton 组的 SimCLR 用对比学习刷新自监督视觉表征的纪录:同一张图的两个增强视角拉近、不同图推远,几乎追平有监督预训练。标注的霸权松动了。
[论文解读] 1m
2020.01.23
缩放定律:OpenAI 把‘大力出奇迹’写成了公式
Kaplan 等人发现:语言模型的损失随参数量、数据量、算力呈幂律下降,跨越七个数量级依然平滑可预测。‘scale works’从信仰变成了可外推的工程公式。
[论文解读] 1m
2019.12.04
双下降:更大的模型为什么没有像教科书说的那样过拟合?
OpenAI 的‘深度双下降’揭示一个反常识现象:测试误差随模型变大,先降后升(经典偏差-方差),然后……又降。我们对‘过拟合’的理解,可能从一开始就太简单了。
[深度思考] 1m
2019.10.23
T5:把所有 NLP 任务都变成‘文本进、文本出’
Google 的 T5 提出一个极简又极强的统一框架:翻译、摘要、分类、问答——通通当成‘文本到文本’的生成任务来做。一篇论文,一套范式,顺便把迁移学习的各种选择系统地扫了一遍。
[论文解读] 1m
2018.10.11
BERT 屠榜:双向预训练把 NLP 带进“微调时代”
Google 发布 BERT:用掩码语言模型做双向预训练,在 11 项 NLP 任务上集体刷新 SOTA,GLUE 榜单一夜变天。预训练大模型 + 微调,成了 NLP 的新默认。
[论文解读] 1m
2018.09.28
BigGAN:把 GAN 做大,生成的图开始“以假乱真”
DeepMind 的 BigGAN 证明:把 GAN 的批量和参数堆大,配合一些稳定技巧,能生成 512×512 高保真的 ImageNet 图像。“规模”这味药,对生成模型同样灵。
[论文解读] 1m
2018.06.27
World Models:让智能体先在“梦里”把本事练好
Ha 与 Schmidhuber 的 World Models:智能体先学一个环境的生成式“世界模型”,然后在这个想象的世界里训练策略。在梦里练车,是不是听起来很科幻?
[论文解读] 1m
2018.06.11
GPT-1:OpenAI 押注“预训练 + 微调”的第一张牌
OpenAI 发布 GPT:用 Transformer 解码器在大量无标注文本上做语言模型预训练,再微调到各类任务。一个模型打多个任务的范式,开始成型。
[论文解读] 1m
2017.12.06
AlphaZero:一套算法通吃围棋、国象、将棋
DeepMind 把 Zero 配方泛化:同一套算法、同一组超参数,从零自学围棋、国际象棋、将棋,分别在数小时内超越各自领域最强程序。通用性宣言。
[论文解读] 1m
2017.11.06
Hinton 的胶囊网络:对自己发明的东西最不满意的人
Hinton 发布 Capsule Networks:用向量“胶囊”取代标量神经元,动态路由取代池化。CNN 之父亲自下场革 CNN 的命,虽然这次未必成功。
[短思考] 1m
2017.10.18
AlphaGo Zero:扔掉人类棋谱,三天登顶
Nature 新论文:AlphaGo Zero 不用任何人类棋谱,从随机落子开始纯自我对弈,三天超越击败李世石的版本,40 天超越所有旧版。人类知识从起点变成了天花板。
[论文解读] 1m
2017.07.20
PPO:把策略优化做成“人人能跑”的默认选项
OpenAI 发布 PPO:用一个裁剪过的目标函数替代 TRPO 的二阶约束,几行代码实现接近的效果。简单、稳、好调——它大概率会成为 RL 的默认算法。
[论文解读] 1m
2017.06.12
Attention Is All You Need:八个人把 RNN 送进了历史
Google 八人组的 Transformer 论文挂上 arXiv:不要循环、不要卷积,纯注意力机制做序列建模,翻译质量和训练速度双双碾压。这篇必须精读。
[论文解读] 2m
2017.01.31
Libratus 血洗德扑职业牌手:不完全信息博弈也失守了
CMU 的 Libratus 在 20 天 12 万手一对一无限注德扑中,以 177 万筹码的巨大优势击败四位顶尖职业牌手。虚张声势这件事,机器干得比人还好。
[论文解读] 1m
2016.09.27
谷歌翻译换引擎:GNMT 一夜之间把错误率砍掉六成
Google 发布 GNMT 神经机器翻译系统并直接上线中英翻译:8 层 LSTM 编解码器加注意力机制,翻译错误率较老系统下降 55-85%,十年统计机器翻译时代谢幕。
[论文解读] 1m
2016.09.08
WaveNet:DeepMind 让机器一“个”采样点一个采样点地说话
DeepMind 发布 WaveNet:直接在原始音频波形上做自回归生成,每秒预测 16000 个采样点,合成语音的自然度大幅逼近真人。
[论文解读] 1m
2016.06.21
AI 安全的具体问题:终于有人把“天网焦虑”翻译成了工程任务
Google Brain、OpenAI 等联合发表 Concrete Problems in AI Safety:把 AI 安全拆成五个可研究的具体问题,从扫地机器人打翻花瓶讲起。
[论文解读] 1m
2016.01.27
Nature 头条:AlphaGo 五比零横扫欧洲围棋冠军
DeepMind 在 Nature 公布 AlphaGo:策略网络 + 价值网络 + 蒙特卡洛树搜索,去年十月已经 5:0 击败欧洲冠军樊麾。围棋这座“十年内攻不下”的山,被提前攻了。
[论文解读] 1m
2015.12.10
ResNet:把网络做到 152 层的那个“恒等捷径”
何恺明团队的 ResNet 横扫 ILSVRC 2015 所有项目:残差连接让 152 层网络的训练比 22 层还顺利,ImageNet 错误率降到 3.57%,首次超过人类水平。
[论文解读] 1m
2015.08.26
神经风格迁移:把你的自拍画成梵高
Gatys 等人发现:卷积网络的特征天然把“内容”和“风格”分开存放。优化一张图同时匹配两者,就能让照片穿上任何画家的笔触。
[论文解读] 1m
2015.06.18
目标检测的疯狂六月:Faster R-CNN 和 YOLO 同月亮相
一个月内两篇目标检测里程碑:Faster R-CNN 用 RPN 把候选框也交给网络学,YOLO 干脆把检测变成一次回归。两条路线就此分野。
[论文解读] 1m
2015.03.09
Hinton 的知识蒸馏:让小模型喝下大模型的“暗知识”
Distilling the Knowledge in a Neural Network:用大模型的软标签训练小模型,效果远超直接用硬标签训练。“暗知识”这个词从此进入词典。
[论文解读] 1m
2015.02.26
DQN 登上 Nature:一个网络学会了 49 个雅达利游戏
DeepMind 的 DQN 论文登上 Nature 封面:同一套网络结构和超参数,只看屏幕像素和分数,学会了 49 个雅达利游戏,一半以上超过人类测试员。
[论文解读] 1m