AlphaStar 打星际:DeepMind 攻进了即时战略的迷雾
// TL;DR
- 星际的难点:战争迷雾(不完全信息)、实时决策、上千种操作、长达数十分钟的因果链。
- AlphaStar 用模仿学习起步 + 联盟自我对弈(League training)防止策略被克制。
- 争议点:APM 和全局视野的公平性,仍待打磨。
为什么星际比围棋难
围棋虽深,但回合制、信息完全、动作就是落子。星际争霸 II 把难度叠满了:战争迷雾让你看不到对手在干嘛(不完全信息);实时进行,没有思考回合;一局几十分钟,开局的运营失误要十分钟后才暴露(超长时域信用分配);每个时刻有成百上千种可能操作。这些恰好是当前 RL 最头疼的几个问题,全凑齐了。
League training 是关键
AlphaStar 先用人类录像做模仿学习起步,再进入自我对弈。但 DeepMind 发现单纯自我对弈会陷入“石头剪刀布”循环——练出一个强策略,很快被一个专门克制它的策略打败,如此反复。解法是搞一个“联盟”:同时维护一群各有所长、甚至专门负责钻空子的智能体互相厮杀,逼主力智能体学出不被任何单一战术克制的稳健策略。
掌声与争议
10:1 的战绩很硬,但社区也提出了公平性质疑:早期版本的 AlphaStar 能同时看到视野内全图(人类要靠移动镜头),瞬时操作峰值也超过人类生理极限。DeepMind 后续做了限制。我的看法:这些争议恰恰说明它的’智能’还没强到能在完全对等条件下碾压人类——它部分赢在了机械优势上。但 League training 这个对抗多样性的思路很漂亮,解决的是一个普适问题:如何避免自我对弈陷入局部最优。这个会被反复借用。