session://14:29:34
grep -l #强化学习 posts/

#强化学习

ls posts/ | grep 强化学习
18 entries · 全部 →
2025.05.22
Claude 4 与‘会思考’的标配化:推理从奢侈品变成了一个旋钮
2024 年 9 月 o1 刚把‘推理’开成一条新赛道,我说所有人都会涌进来。八个月后,事情比我想的还彻底:Anthropic 的 Claude 4、Google 的 Gemini 2.5、DeepSeek、OpenAI……几乎每家旗舰都内置了‘可调的思考’。推理不再是某个特殊型号的卖点,而是变成了一个你能拧的旋钮——要快就少想,要准就多想。
[深度思考] 3m
2025.01.27
同一周的两张面孔:5000 亿美元的豪赌,和一个把英伟达干跌 6000 亿的开源小模型
2025 年第一周,AI 行业的两种世界观正面对撞。1 月 21 日,OpenAI 联合软银、甲骨文宣布 Stargate——五千亿美元建算力。几乎同时,中国的 DeepSeek 开源了 R1:一个媲美 o1、训练成本却低一个数量级的推理模型。一周后,它登顶美区 App Store,英伟达单日市值蒸发近 6000 亿美元。‘堆钱堆算力’和‘把效率卷到极致’,在同一周撞了个满怀。
[深度思考] 4m
2024.12.20
o3 与 ARC 谜题:推理这条新路,年底就给了我们一个‘吓一跳’
九月 o1 刚开了‘推理时扩展’这条路,年底 OpenAI 就甩出 o3,在一个专门用来‘考倒 AI’的基准 ARC-AGI 上,从此前的个位数百分比飙到了 87%。好消息是进步快得惊人,坏消息(也是好消息)是:这一份‘聪明’,贵得也惊人。
[深度思考] 3m
2024.09.12
o1:OpenAI 换了个维度卷——不再卷模型多大,而是卷它‘想多久’
o1 是 2024 年最重要的技术转向。它不靠把模型做得更大,而是让模型在回答前先‘想很久’——生成一长串内部推理,用强化学习训练这个思考过程。一个全新的、和参数规模并列的扩展维度被打开了:推理时算力。
[论文解读] 4m
2019.04.13
OpenAI Five 掀翻 Dota 世界冠军:5v5 这关过了
OpenAI Five 击败 Dota 2 世界冠军战队 OG。两年前还只能打 1v1,现在拿下了需要团队协作的完整 5v5。算力 + self-play + PPO 的暴力组合,又赢了一局。
[论文解读] 1m
2019.01.24
AlphaStar 打星际:DeepMind 攻进了即时战略的迷雾
DeepMind 的 AlphaStar 在《星际争霸 II》中 10:1 击败两位职业选手。实时、不完全信息、超长时域、海量动作空间——围棋之后最难的游戏之一也失守了。
[论文解读] 1m
2018.06.27
World Models:让智能体先在“梦里”把本事练好
Ha 与 Schmidhuber 的 World Models:智能体先学一个环境的生成式“世界模型”,然后在这个想象的世界里训练策略。在梦里练车,是不是听起来很科幻?
[论文解读] 1m
2017.12.06
AlphaZero:一套算法通吃围棋、国象、将棋
DeepMind 把 Zero 配方泛化:同一套算法、同一组超参数,从零自学围棋、国际象棋、将棋,分别在数小时内超越各自领域最强程序。通用性宣言。
[论文解读] 1m
2017.10.18
AlphaGo Zero:扔掉人类棋谱,三天登顶
Nature 新论文:AlphaGo Zero 不用任何人类棋谱,从随机落子开始纯自我对弈,三天超越击败李世石的版本,40 天超越所有旧版。人类知识从起点变成了天花板。
[论文解读] 1m
2017.08.11
TI 现场的彩蛋:OpenAI 的 Bot 单挑掀翻 Dendi
Dota 2 国际邀请赛上,OpenAI 的 1v1 Bot 当场击败人气职业选手 Dendi。纯自我对弈练出来的,没喂一场人类录像。下一步他们要打 5v5。
[短思考] 1m
2017.07.20
PPO:把策略优化做成“人人能跑”的默认选项
OpenAI 发布 PPO:用一个裁剪过的目标函数替代 TRPO 的二阶约束,几行代码实现接近的效果。简单、稳、好调——它大概率会成为 RL 的默认算法。
[论文解读] 1m
2017.05.27
乌镇三连胜后,AlphaGo 挂靴:一个时代三年就走完了
AlphaGo 3:0 战胜世界第一柯洁后宣布退役。柯洁中盘哭了,DeepMind 转身去做蛋白质和能源。这场人机故事的收尾,比开头还耐人寻味。
[深度思考] 1m
2017.01.31
Libratus 血洗德扑职业牌手:不完全信息博弈也失守了
CMU 的 Libratus 在 20 天 12 万手一对一无限注德扑中,以 177 万筹码的巨大优势击败四位顶尖职业牌手。虚张声势这件事,机器干得比人还好。
[论文解读] 1m
2016.12.05
OpenAI Universe:让 AI 像人一样用键盘鼠标玩电脑
OpenAI 发布 Universe:让智能体通过看屏幕像素、操作键鼠的方式使用上千个游戏和网页。野心很大——通用智能体的训练场。
[短思考] 1m
2016.04.27
OpenAI Gym 发布:强化学习终于有了统一考场
OpenAI 发布首个产品 Gym:一套统一接口的强化学习环境集合,从 CartPole 到 Atari。从此 RL 论文有了可复现的基准线。
[产品实践] 1m
2016.03.15
4:1,第 37 手:AlphaGo 战胜李世石的一周
首尔五番棋,AlphaGo 4:1 战胜李世石。第二局的第 37 手让职业棋手集体沉默,第四局李世石的“神之一手”则赢回了人类唯一一盘。这一周值得写进教科书。
[深度思考] 1m
2016.01.27
Nature 头条:AlphaGo 五比零横扫欧洲围棋冠军
DeepMind 在 Nature 公布 AlphaGo:策略网络 + 价值网络 + 蒙特卡洛树搜索,去年十月已经 5:0 击败欧洲冠军樊麾。围棋这座“十年内攻不下”的山,被提前攻了。
[论文解读] 1m
2015.02.26
DQN 登上 Nature:一个网络学会了 49 个雅达利游戏
DeepMind 的 DQN 论文登上 Nature 封面:同一套网络结构和超参数,只看屏幕像素和分数,学会了 49 个雅达利游戏,一半以上超过人类测试员。
[论文解读] 1m