AlphaStar 打星际：DeepMind 攻进了即时战略的迷雾

为什么星际比围棋难

围棋虽深，但回合制、信息完全、动作就是落子。星际争霸 II 把难度叠满了：战争迷雾让你看不到对手在干嘛（不完全信息）；实时进行，没有思考回合；一局几十分钟，开局的运营失误要十分钟后才暴露（超长时域信用分配）；每个时刻有成百上千种可能操作。这些恰好是当前 RL 最头疼的几个问题，全凑齐了。

League training 是关键

AlphaStar 先用人类录像做模仿学习起步，再进入自我对弈。但 DeepMind 发现单纯自我对弈会陷入“石头剪刀布”循环——练出一个强策略，很快被一个专门克制它的策略打败，如此反复。解法是搞一个“联盟”：同时维护一群各有所长、甚至专门负责钻空子的智能体互相厮杀，逼主力智能体学出不被任何单一战术克制的稳健策略。

掌声与争议

10:1 的战绩很硬，但社区也提出了公平性质疑：早期版本的 AlphaStar 能同时看到视野内全图（人类要靠移动镜头），瞬时操作峰值也超过人类生理极限。DeepMind 后续做了限制。我的看法：这些争议恰恰说明它的’智能’还没强到能在完全对等条件下碾压人类——它部分赢在了机械优势上。但 League training 这个对抗多样性的思路很漂亮,解决的是一个普适问题:如何避免自我对弈陷入局部最优。这个会被反复借用。

为什么星际比围棋难

League training 是关键

掌声与争议

每周一封，<5 分钟读完