grep -l #强化学习 posts/

#强化学习

ls posts/ | grep 强化学习

18 entries · 全部 →

→Claude 4 与‘会思考’的标配化:推理从奢侈品变成了一个旋钮

2024 年 9 月 o1 刚把‘推理’开成一条新赛道,我说所有人都会涌进来。八个月后,事情比我想的还彻底:Anthropic 的 Claude 4、Google 的 Gemini 2.5、DeepSeek、OpenAI……几乎每家旗舰都内置了‘可调的思考’。推理不再是某个特殊型号的卖点,而是变成了一个你能拧的旋钮——要快就少想,要准就多想。

[深度思考] 3m

→同一周的两张面孔:5000 亿美元的豪赌,和一个把英伟达干跌 6000 亿的开源小模型

2025 年第一周,AI 行业的两种世界观正面对撞。1 月 21 日,OpenAI 联合软银、甲骨文宣布 Stargate——五千亿美元建算力。几乎同时,中国的 DeepSeek 开源了 R1:一个媲美 o1、训练成本却低一个数量级的推理模型。一周后,它登顶美区 App Store,英伟达单日市值蒸发近 6000 亿美元。‘堆钱堆算力’和‘把效率卷到极致’,在同一周撞了个满怀。

[深度思考] 4m

→o3 与 ARC 谜题:推理这条新路,年底就给了我们一个‘吓一跳’

九月 o1 刚开了‘推理时扩展’这条路,年底 OpenAI 就甩出 o3,在一个专门用来‘考倒 AI’的基准 ARC-AGI 上,从此前的个位数百分比飙到了 87%。好消息是进步快得惊人,坏消息(也是好消息)是:这一份‘聪明’,贵得也惊人。

[深度思考] 3m

→o1:OpenAI 换了个维度卷——不再卷模型多大,而是卷它‘想多久’

o1 是 2024 年最重要的技术转向。它不靠把模型做得更大,而是让模型在回答前先‘想很久’——生成一长串内部推理,用强化学习训练这个思考过程。一个全新的、和参数规模并列的扩展维度被打开了:推理时算力。

[论文解读] 4m

→OpenAI Five 掀翻 Dota 世界冠军：5v5 这关过了

OpenAI Five 击败 Dota 2 世界冠军战队 OG。两年前还只能打 1v1，现在拿下了需要团队协作的完整 5v5。算力 + self-play + PPO 的暴力组合，又赢了一局。

[论文解读] 1m

→AlphaStar 打星际：DeepMind 攻进了即时战略的迷雾

DeepMind 的 AlphaStar 在《星际争霸 II》中 10:1 击败两位职业选手。实时、不完全信息、超长时域、海量动作空间——围棋之后最难的游戏之一也失守了。

[论文解读] 1m

→World Models：让智能体先在“梦里”把本事练好

Ha 与 Schmidhuber 的 World Models：智能体先学一个环境的生成式“世界模型”，然后在这个想象的世界里训练策略。在梦里练车，是不是听起来很科幻？

[论文解读] 1m

→AlphaZero：一套算法通吃围棋、国象、将棋

DeepMind 把 Zero 配方泛化：同一套算法、同一组超参数，从零自学围棋、国际象棋、将棋，分别在数小时内超越各自领域最强程序。通用性宣言。

[论文解读] 1m

→AlphaGo Zero：扔掉人类棋谱，三天登顶

Nature 新论文：AlphaGo Zero 不用任何人类棋谱，从随机落子开始纯自我对弈，三天超越击败李世石的版本，40 天超越所有旧版。人类知识从起点变成了天花板。

[论文解读] 1m

→TI 现场的彩蛋：OpenAI 的 Bot 单挑掀翻 Dendi

Dota 2 国际邀请赛上，OpenAI 的 1v1 Bot 当场击败人气职业选手 Dendi。纯自我对弈练出来的，没喂一场人类录像。下一步他们要打 5v5。

→PPO：把策略优化做成“人人能跑”的默认选项

OpenAI 发布 PPO：用一个裁剪过的目标函数替代 TRPO 的二阶约束，几行代码实现接近的效果。简单、稳、好调——它大概率会成为 RL 的默认算法。

[论文解读] 1m

→乌镇三连胜后，AlphaGo 挂靴：一个时代三年就走完了

AlphaGo 3:0 战胜世界第一柯洁后宣布退役。柯洁中盘哭了，DeepMind 转身去做蛋白质和能源。这场人机故事的收尾，比开头还耐人寻味。

[深度思考] 1m

→Libratus 血洗德扑职业牌手：不完全信息博弈也失守了

CMU 的 Libratus 在 20 天 12 万手一对一无限注德扑中，以 177 万筹码的巨大优势击败四位顶尖职业牌手。虚张声势这件事，机器干得比人还好。

[论文解读] 1m

→OpenAI Universe：让 AI 像人一样用键盘鼠标玩电脑

OpenAI 发布 Universe：让智能体通过看屏幕像素、操作键鼠的方式使用上千个游戏和网页。野心很大——通用智能体的训练场。

→OpenAI Gym 发布：强化学习终于有了统一考场

OpenAI 发布首个产品 Gym：一套统一接口的强化学习环境集合，从 CartPole 到 Atari。从此 RL 论文有了可复现的基准线。

[产品实践] 1m

→4:1，第 37 手：AlphaGo 战胜李世石的一周

首尔五番棋，AlphaGo 4:1 战胜李世石。第二局的第 37 手让职业棋手集体沉默，第四局李世石的“神之一手”则赢回了人类唯一一盘。这一周值得写进教科书。

[深度思考] 1m

→Nature 头条：AlphaGo 五比零横扫欧洲围棋冠军

DeepMind 在 Nature 公布 AlphaGo：策略网络 + 价值网络 + 蒙特卡洛树搜索，去年十月已经 5:0 击败欧洲冠军樊麾。围棋这座“十年内攻不下”的山，被提前攻了。

[论文解读] 1m

→DQN 登上 Nature：一个网络学会了 49 个雅达利游戏

DeepMind 的 DQN 论文登上 Nature 封面：同一套网络结构和超参数，只看屏幕像素和分数，学会了 49 个雅达利游戏，一半以上超过人类测试员。

[论文解读] 1m