TI 现场的彩蛋:OpenAI 的 Bot 单挑掀翻 Dendi
// TL;DR
- 1v1 影魔 solo,OpenAI Bot 两局速胜 Dendi,现场哗然。
- 训练方式:纯 self-play,从零开始,不用人类数据。
- 真正的难题是 5v5——长时域、团队协作、不完全信息全都来了。
现场发生了什么
Dota 2 最高规格赛事 TI7 的现场,OpenAI 搞了个突然袭击:让他们的 Bot 和人气选手 Dendi 打影魔 1v1 solo。第一局 Bot 用人类视角看近乎完美的补刀和压制节奏速胜,第二局 Dendi 直接投了。现场解说的原话是“它玩得像人,但又不是人”。
训练细节比胜负有意思:这个 Bot 没看过任何人类对局,纯靠和自己复制体对打,从随机乱走开始练到职业水平,据说相当于压缩了几百年的游戏时长。Self-play 这条路在围棋之外又验了一次。
冷静与期待
得说清楚:1v1 影魔 solo 是 Dota 里规则最收敛的一小块,状态空间和博弈深度远不能代表完整对局。OpenAI 自己也承认,真正的目标是 5v5——那意味着 45 分钟以上的超长时域、五个智能体的协作分工、战争迷雾下的不完全信息。每一项都是当前 RL 没解决的开放问题。
所以今天这场秀的正确解读是:self-play + 大算力这套配方的潜力下限又抬高了一截。上限在哪,等 5v5 见真章。