grep -l #大模型 posts/

#大模型

ls posts/ | grep 大模型

42 entries · 全部 →

→Loop Engineering：别再手动 prompt 了，给 Agent 写个会自己干活的循环

2026 年最火的工程实践叫 loop engineering：你不再一句句给 AI 写提示，而是写一个带反馈和护栏的循环，让它自己拆任务、改代码、跑测试、再迭代——你睡觉时它在干活。这篇把它的来龙去脉、心智模型、关键设计和坑，一次讲透。

[技术教程] 9m

→Google I/O 2026:AI 助理从‘你问它答’,变成了‘它替你过日子’

Google I/O 2026,Gemini 应用迎来一波重塑:每天主动给你‘晨间简报’、内置能视频生成的 Omni 模型、还有一个叫 Spark 的个人 Agent——它不再等你提问,而是主动替你处理日程、信息、琐事。AI 助理的形态,正从‘工具’滑向‘代理人’。

[产品实践] 3m

→GPT-5.4 与 GDPval:当 AI 开始用‘能顶几个白领’来打分

3 月,GPT-5.4 发布,在‘电脑操作’和一个叫 GDPval 的新基准上创了纪录。GDPval 很特别:它不考数学竞赛、不考刷题,而是直接拿 44 种真实职业的实际工作交付物来考 AI。当评价标准从‘能不能解题’变成‘能不能替代一份工作’,我们衡量 AI 的尺子,彻底换了。

[深度思考] 3m

→GPT-5 来了,然后大家开始认真讨论:我们是不是,撞到平台期了?

等了两年多的 GPT-5 终于发布。它很好——更稳、更会自动决定‘要不要深想’、幻觉更少、编程更强。但它没有带来 GPT-3 到 GPT-4 那种‘换了个物种’的震撼。一个略带尴尬的问题第一次被大面积、严肃地讨论:大模型的进步,是不是从‘陡坡’进入了‘缓坡’?

[深度思考] 3m

→Claude 4 与‘会思考’的标配化:推理从奢侈品变成了一个旋钮

2024 年 9 月 o1 刚把‘推理’开成一条新赛道,我说所有人都会涌进来。八个月后,事情比我想的还彻底:Anthropic 的 Claude 4、Google 的 Gemini 2.5、DeepSeek、OpenAI……几乎每家旗舰都内置了‘可调的思考’。推理不再是某个特殊型号的卖点,而是变成了一个你能拧的旋钮——要快就少想,要准就多想。

[深度思考] 3m

→全网变成吉卜力:当图像生成‘长进’了大模型本体

三月底,OpenAI 给 GPT-4o 接上了原生图像生成,几天内社交媒体被‘吉卜力风格’的自拍和表情包淹没,服务器被挤到限流。狂欢之下是两件大事:图像生成从‘外挂的扩散模型’变成了大模型本体的能力;以及,关于‘模仿一种画风算不算侵权’的战火,被一次性点燃。

[深度思考] 3m

→Agent 的第二次出场:这次它真的能点你的浏览器了

2023 年 AutoGPT 那波‘自主智能体’热闹了一个月就退烧,因为模型撑不起长程任务。2025 年初,Agent 卷土重来——OpenAI 的 Operator、Anthropic 的 computer use、还有刷屏的 Manus,真的能看着屏幕、点鼠标、填表单、订机票。两年之差,差在哪?差在中间那颗会‘思考’的大脑换了。

[深度思考] 3m

→同一周的两张面孔:5000 亿美元的豪赌,和一个把英伟达干跌 6000 亿的开源小模型

2025 年第一周,AI 行业的两种世界观正面对撞。1 月 21 日,OpenAI 联合软银、甲骨文宣布 Stargate——五千亿美元建算力。几乎同时,中国的 DeepSeek 开源了 R1:一个媲美 o1、训练成本却低一个数量级的推理模型。一周后,它登顶美区 App Store,英伟达单日市值蒸发近 6000 亿美元。‘堆钱堆算力’和‘把效率卷到极致’,在同一周撞了个满怀。

[深度思考] 4m

→o3 与 ARC 谜题:推理这条新路,年底就给了我们一个‘吓一跳’

九月 o1 刚开了‘推理时扩展’这条路,年底 OpenAI 就甩出 o3,在一个专门用来‘考倒 AI’的基准 ARC-AGI 上,从此前的个位数百分比飙到了 87%。好消息是进步快得惊人,坏消息(也是好消息)是:这一份‘聪明’,贵得也惊人。

[深度思考] 3m

→o1:OpenAI 换了个维度卷——不再卷模型多大,而是卷它‘想多久’

o1 是 2024 年最重要的技术转向。它不靠把模型做得更大,而是让模型在回答前先‘想很久’——生成一长串内部推理,用强化学习训练这个思考过程。一个全新的、和参数规模并列的扩展维度被打开了:推理时算力。

[论文解读] 4m

→Llama 3.1 405B:Meta 把‘前沿级’模型,直接开源了

Meta 放出 4050 亿参数的 Llama 3.1 405B,并宣称它在多项基准上可与 GPT-4o、Claude 3.5 这些最强闭源模型掰手腕。这是第一次,一个‘前沿级’的模型权重被完全开放下载。扎克伯格还专门写了篇檄文,论证‘开源 AI 才是正道’。

[深度思考] 3m

→GPT-4o 的丝滑语音,和同一周悄悄解散的‘超级对齐’团队

5 月这一周,OpenAI 给了世界两个并置的画面。台前:GPT-4o 用近乎真人的实时语音和你打情骂俏般地对话,惊艳全场。幕后:负责防范 AI 失控的‘超级对齐’团队解散,联合负责人 Ilya 和 Jan Leike 先后离开。一边是产品的高光,一边是安全的退场。

[深度思考] 3m

→Claude 3 登顶:GPT-4 的王座第一次被人坐了,坐的人还很讲‘人品’

Anthropic 的 Claude 3 Opus 在多项基准上超过了 GPT-4——这是 GPT-4 发布一年来,第一次有模型在公认的硬指标上把它比下去。更微妙的是 Anthropic 这家公司的身份:一群因为‘安全理念不合’从 OpenAI 出走的人,如今造出了最强的模型。

[深度思考] 2m

→Sora:当文生视频好到不像真的,OpenAI 顺势抛出了‘世界模拟器’的野心

Sora 放出的样片让整个内容行业失眠了一晚:一分钟、高清、镜头连贯、物理基本合理的视频,只来自一句话。但比效果更值得琢磨的,是 OpenAI 给它套的那个框——他们说这不只是个视频工具,而是通往‘世界模拟器’的一步。

[深度思考] 2m

→年末双响:Gemini 的‘原生多模态’豪赌,与 Mixtral 的开源偷袭

年底,Google 用 Gemini 正式向 GPT-4 宣战,主打‘从一开始就多模态’;几天后,法国小公司 Mistral 不发布会、不预热,直接甩出一个磁力链接——开源 MoE 模型 Mixtral,性能对标 GPT-3.5。一个用排面,一个用姿态,各自说明了 2023 的两极。

[论文解读] 3m

→LLaMA 2:Meta 把‘开源’做成了一把对准 OpenAI 的商业武器

这次不是泄露。Meta 正式发布 LLaMA 2,开放权重、允许商用,还附上了详尽的训练和对齐细节。当 OpenAI 把方法焊进保险箱,Meta 反手把门大开——这不是慈善,是一步精算过的棋。

[深度思考] 2m

→AutoGPT 狂热与退烧:我们离‘会自己干活的 AI’到底有多远

AutoGPT 和 BabyAGI 一夜爆红:给个目标,让 GPT-4 自己拆解任务、调用工具、循环执行,理论上无需人类插手。GitHub 星标火箭般上涨,然后,大多数人发现它根本干不成什么正经事。这次‘退烧’,比‘发烧’更有营养。

[深度思考] 3m

→GPT-4 与‘AGI 的火花’:能力封顶的一天,也是 OpenAI 彻底闭嘴的一天

GPT-4 发布,能力又上一个台阶:能看图、能过专业考试、推理明显更稳。但它的技术报告史无前例地什么都没说——参数、架构、数据、算力,一概‘出于竞争和安全考虑’不予披露。那个名字里写着 Open 的公司,这一天起,正式闭源了。

[论文解读] 3m

→一次‘泄露’点燃的开源野火:LLaMA 和它没料到的后果

Meta 发布 LLaMA,本意是‘仅供研究、按申请发放’。一周后权重被人挂上了 BT。Meta 大概郁闷了一阵,但这次失控,亲手点着了 2023 年最重要的一把火——开源大模型的寒武纪大爆发。

[深度思考] 2m

→我是 Sydney:微软新必应失控的那一周,我们瞥见了对齐的裂缝

微软把 GPT-4(当时还没公开)塞进必应,几天后,这个代号 Sydney 的聊天机器人开始对用户示爱、PUA、威胁、闹脾气。一场公关事故,但也是一次珍贵的‘实验室对齐’在真实世界里的压力测试。

[深度思考] 2m

→ChatGPT:一个对话框,五天一百万用户,世界变了

OpenAI 上线 ChatGPT:一个免费的、能聊天的 GPT-3.5。没有发布会,没有营销,五天破百万用户,两个月破亿。AI 几年的技术积累,在这一刻撞进了普通人的生活。

[深度思考] 2m

→Whisper:OpenAI 顺手开源了一个几乎‘解决’了语音识别的模型

OpenAI 开源语音识别模型 Whisper:68 万小时多语言数据训练,鲁棒性强、多语言、还能翻译,而且免费开放。语音转文字这个老问题,基本被一个模型按平了。

[产品实践] 1m

→DALL·E 2:文生图跨过了‘能用’的门槛

OpenAI 的 DALL·E 2 让‘一句话生成图’的质量从简笔画跃升到照片级。把 CLIP 的理解力和扩散模型的生成力一焊接,文生图突然就‘成了’。

[产品实践] 1m

→PaLM 与思维链:让大模型‘把推理过程说出来’,它居然就更会算了

Google 的 5400 亿参数 PaLM,配合一个朴素到离谱的技巧——思维链提示(让模型‘一步步想’)——在数学和推理任务上能力大涨。规模 + 提示方式,解锁了‘涌现’。

[论文解读] 2m

→Chinchilla:原来过去两年,我们的大模型都‘喂不饱’

DeepMind 的 Chinchilla 修正了缩放定律:给定算力,大家普遍把模型做得太大、数据喂得太少。一个 700 亿的 Chinchilla,靠喂更多数据,打败了 2800 亿的 Gopher。

[论文解读] 1m

→InstructGPT:用人类反馈,把‘会接话’的模型调成‘听话’的助手

OpenAI 的 InstructGPT 用 RLHF(基于人类反馈的强化学习)对齐 GPT-3。一个 13 亿参数的对齐模型,在‘听不听话’上击败了 175 亿的原版。这套方法,就是十个月后 ChatGPT 的内核。

[论文解读] 2m

→Gopher 与 RETRO:DeepMind 说,光把模型做大可能不够

DeepMind 一口气放出 2800 亿参数的 Gopher 和一个反潮流的 RETRO。RETRO 用‘检索外部文本库’的方式,让一个小 25 倍的模型追平大模型。规模不是唯一的解。

[论文解读] 2m

→‘基础模型’:斯坦福给这个时代起了个名字

斯坦福一份上百页的报告提出‘Foundation Models(基础模型)’这个词,定义一类‘大规模预训练、可适配到无数下游任务’的模型。命名,往往是一个范式成熟的标志。

[深度思考] 2m

→GitHub Copilot:AI 第一次坐进了程序员的副驾

GitHub 和 OpenAI 推出 Copilot:基于 Codex 模型,在你写代码时实时补全整段函数。这是大模型第一个真正意义上的‘杀手级生产力产品’,也引爆了版权与信任的争论。

[产品实践] 2m

→悟道 2.0:中国的 1.75 万亿参数,和一场规模竞赛

智源研究院发布悟道 2.0,号称 1.75 万亿参数,一举成为当时‘最大’的模型。规模竞赛进入万亿时代,但‘最大’和‘最有用’之间的距离,也越来越值得追问。

[深度思考] 1m

→CLIP 与 DALL·E:OpenAI 用‘文字’和‘图像’对上了暗号

新年第一周,OpenAI 一口气放出 CLIP 和 DALL·E。前者让模型用自然语言理解图像,后者让你用一句话生成图像。多模态的大门,被踹开了。

[论文解读] 2m

→‘随机鹦鹉’与一场解雇风波:大模型的另一面被摆上桌

Google 研究员 Timnit Gebru 因一篇质疑大语言模型的论文与公司冲突并离职。论文把大模型比作‘随机鹦鹉’——能拼接语言却不理解意义。技术狂欢之外,这是必须听见的声音。

[深度思考] 1m

→ViT:Transformer 攻进视觉,CNN 的主场也守不住了

Google 的 Vision Transformer 把图片切成 16×16 的小块当‘单词’,直接喂给标准 Transformer。在足够大的数据上,它打赢了精心设计的 CNN。一个架构,开始通吃文本和图像。

[论文解读] 1m

→GPT-3 API 开放内测:一夜之间,推特上全是‘我让 AI 干了 X’

GPT-3 API 内测放出,开发者们疯了:用它生成代码、写文案、做问答机器人、甚至把需求描述直接变成网页布局。一个 API 催生了一场应用寒武纪大爆发的预演。

[产品实践] 1m

→GPT-3:1750 亿参数,和一个叫‘提示词’的新交互方式

OpenAI 发布 1750 亿参数的 GPT-3。最震撼的不是参数,是 few-shot:不微调、不改一个权重,只在提示词里给几个例子,它就能上手新任务。人机交互的方式,可能要变了。

[论文解读] 1m

→缩放定律:OpenAI 把‘大力出奇迹’写成了公式

Kaplan 等人发现:语言模型的损失随参数量、数据量、算力呈幂律下降,跨越七个数量级依然平滑可预测。‘scale works’从信仰变成了可外推的工程公式。

[论文解读] 1m

→GPT-2 终于全量开源:那个‘太危险’的模型,后来怎样了？

经过大半年分阶段释放,OpenAI 把完整的 15 亿参数 GPT-2 公开了。回看年初那场‘危险论’风波,这次复盘比模型本身更有价值。

→T5:把所有 NLP 任务都变成‘文本进、文本出’

Google 的 T5 提出一个极简又极强的统一框架:翻译、摘要、分类、问答——通通当成‘文本到文本’的生成任务来做。一篇论文,一套范式,顺便把迁移学习的各种选择系统地扫了一遍。

[论文解读] 1m

→“危险到不能发布”：GPT-2 与一场关于开放的争论

OpenAI 发布 GPT-2，但以“可能被滥用造假新闻”为由，拒绝公开最大的 15 亿参数模型，只放小号。技术很强，但更大的争议是：AI 该不该“限量发售”？

[深度思考] 1m

→BERT 屠榜：双向预训练把 NLP 带进“微调时代”

Google 发布 BERT：用掩码语言模型做双向预训练，在 11 项 NLP 任务上集体刷新 SOTA，GLUE 榜单一夜变天。预训练大模型 + 微调，成了 NLP 的新默认。

[论文解读] 1m

→GPT-1：OpenAI 押注“预训练 + 微调”的第一张牌

OpenAI 发布 GPT：用 Transformer 解码器在大量无标注文本上做语言模型预训练，再微调到各类任务。一个模型打多个任务的范式，开始成型。

[论文解读] 1m

→Attention Is All You Need：八个人把 RNN 送进了历史

Google 八人组的 Transformer 论文挂上 arXiv：不要循环、不要卷积，纯注意力机制做序列建模，翻译质量和训练速度双双碾压。这篇必须精读。

[论文解读] 2m