Nature 头条:AlphaGo 五比零横扫欧洲围棋冠军
// TL;DR
- AlphaGo = 监督学习起步的策略网络 + 自我对弈强化 + 价值网络评估 + MCTS 搜索。
- 2015 年 10 月已 5:0 击败职业二段樊麾,保密三个月配合论文发表。
- 三月将挑战李世石——真正的考试还在后面。
藏了三个月的大新闻
DeepMind 这周在 Nature 上发表 Mastering the game of Go with deep neural networks and tree search,同时揭晓了一个保密三个月的结果:去年 10 月,AlphaGo 在正式规则下 5:0 击败了欧洲围棋冠军、职业二段樊麾。这是计算机第一次在分先条件下战胜职业棋手。要知道,围棋的状态空间约 10^170,穷举搜索完全没戏,主流预测一直是“至少还要十年”。
它是怎么下棋的
- 策略网络:先用 16 万盘人类高手棋谱做监督学习,学会“人类会往哪下”;再通过自我对弈的强化学习继续提升。
- 价值网络:输入一个局面,直接输出胜率估计——相当于学出了一个“局面直觉”。
- 蒙特卡洛树搜索(MCTS):用策略网络收窄搜索宽度、价值网络截断搜索深度,把天文数字的搜索空间修剪到可计算。
精妙之处在于分工:神经网络提供“直觉”,树搜索提供“推演”,两者互相补强。纯网络下不过深算,纯搜索算不过组合爆炸,合在一起就过了职业线。
接下来
三月,首尔,对手李世石——过去十年世界冠军头衔最多的棋手。樊麾和李世石之间大概隔着两个段位的鸿沟,DeepMind 这是公开立军令状。我个人预测 AlphaGo 会输但能赢下一两盘……不过看完论文里自我对弈的提升曲线,我对这个预测也没那么自信。三月见分晓。