session://14:29:33
~/ / posts / 2016-01-alphago-fan-hui.md

Nature 头条:AlphaGo 五比零横扫欧洲围棋冠军

2016-01-27· 1 min read · [论文解读]
// TL;DR
  • AlphaGo = 监督学习起步的策略网络 + 自我对弈强化 + 价值网络评估 + MCTS 搜索。
  • 2015 年 10 月已 5:0 击败职业二段樊麾,保密三个月配合论文发表。
  • 三月将挑战李世石——真正的考试还在后面。

藏了三个月的大新闻

DeepMind 这周在 Nature 上发表 Mastering the game of Go with deep neural networks and tree search,同时揭晓了一个保密三个月的结果:去年 10 月,AlphaGo 在正式规则下 5:0 击败了欧洲围棋冠军、职业二段樊麾。这是计算机第一次在分先条件下战胜职业棋手。要知道,围棋的状态空间约 10^170,穷举搜索完全没戏,主流预测一直是“至少还要十年”。

它是怎么下棋的

  • 策略网络:先用 16 万盘人类高手棋谱做监督学习,学会“人类会往哪下”;再通过自我对弈的强化学习继续提升。
  • 价值网络:输入一个局面,直接输出胜率估计——相当于学出了一个“局面直觉”。
  • 蒙特卡洛树搜索(MCTS):用策略网络收窄搜索宽度、价值网络截断搜索深度,把天文数字的搜索空间修剪到可计算。

精妙之处在于分工:神经网络提供“直觉”,树搜索提供“推演”,两者互相补强。纯网络下不过深算,纯搜索算不过组合爆炸,合在一起就过了职业线。

接下来

三月,首尔,对手李世石——过去十年世界冠军头衔最多的棋手。樊麾和李世石之间大概隔着两个段位的鸿沟,DeepMind 这是公开立军令状。我个人预测 AlphaGo 会输但能赢下一两盘……不过看完论文里自我对弈的提升曲线,我对这个预测也没那么自信。三月见分晓。

强化学习深度学习论文解读行业动态
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。