OpenAI Five 掀翻 Dota 世界冠军:5v5 这关过了
// TL;DR
- 从 2017 的 1v1 到 2019 的 5v5,跨越了长时域 + 团队协作两座大山。
- 训练消耗算力惊人:相当于每天打数百年的游戏量。
- 算法没大变(还是 PPO),变的是规模——这点本身就是结论。
两年前埋的坑填上了
还记得 2017 年 TI 上那个 1v1 打赢 Dendi 的 Bot 吗?当时我说真正的难关是 5v5。现在 OpenAI Five 击败了刚拿下 TI 冠军的 OG 战队。5v5 意味着:五个智能体要协作分工、争夺资源、配合 gank、做长达 45 分钟的战略决策,还得在战争迷雾下博弈。每一项都是 1v1 不存在的难题。
它是怎么做到的
出人意料的是——算法几乎没变,还是 PPO,还是 self-play。变的是规模:用了上千块 GPU,每天的自我对弈量相当于人类玩几百年。团队协作不是靠什么精巧的通信机制涌现的,而是给每个智能体一个能“看到队友状态”的全局奖励,让协作行为在海量对局中自己长出来。
这件事最重要的启示
OpenAI Five 给我最大的震撼不是它赢了,而是它’怎么赢的’:没有算法突破,纯靠把已知方法(PPO + self-play)放大到极致。这其实是个略带不安的结论——它暗示在有充足模拟和算力的领域,‘规模’本身可能就是那条最短路径。
当‘把它做大’成了最可靠的进步手段,真正的护城河就从算法点子,变成了谁买得起算力。
把这条和半年前 BigGAN、和年初 GPT-2 串起来:2018-2019 这两年,整个领域都在反复确认同一件事——scale works。这个共识正在重塑行业的资源分配逻辑。