Nature 头条：AlphaGo 五比零横扫欧洲围棋冠军

藏了三个月的大新闻

DeepMind 这周在 Nature 上发表 Mastering the game of Go with deep neural networks and tree search，同时揭晓了一个保密三个月的结果：去年 10 月，AlphaGo 在正式规则下 5:0 击败了欧洲围棋冠军、职业二段樊麾。这是计算机第一次在分先条件下战胜职业棋手。要知道，围棋的状态空间约 10^170，穷举搜索完全没戏，主流预测一直是“至少还要十年”。

它是怎么下棋的

策略网络：先用 16 万盘人类高手棋谱做监督学习，学会“人类会往哪下”；再通过自我对弈的强化学习继续提升。
价值网络：输入一个局面，直接输出胜率估计——相当于学出了一个“局面直觉”。
蒙特卡洛树搜索（MCTS）：用策略网络收窄搜索宽度、价值网络截断搜索深度，把天文数字的搜索空间修剪到可计算。

精妙之处在于分工：神经网络提供“直觉”，树搜索提供“推演”，两者互相补强。纯网络下不过深算，纯搜索算不过组合爆炸，合在一起就过了职业线。

接下来

三月，首尔，对手李世石——过去十年世界冠军头衔最多的棋手。樊麾和李世石之间大概隔着两个段位的鸿沟，DeepMind 这是公开立军令状。我个人预测 AlphaGo 会输但能赢下一两盘……不过看完论文里自我对弈的提升曲线，我对这个预测也没那么自信。三月见分晓。

藏了三个月的大新闻

它是怎么下棋的

接下来

每周一封，<5 分钟读完