session://14:29:33
~/ / posts / 2017-10-alphago-zero.md

AlphaGo Zero:扔掉人类棋谱,三天登顶

2017-10-18· 1 min read · [论文解读]
// TL;DR
  • Zero 完全抛弃人类棋谱和手工特征,只靠自我对弈 + 规则本身。
  • 架构简化:策略与价值合并为单网络,搜索不再依赖随机模拟(rollout)。
  • 三天超李世石版、40 天超 Master 版——人类先验在这里反而是负资产。

减法做到极致

初代 AlphaGo 的配方里有 16 万盘人类棋谱、48 个手工特征。Zero 把这些全删了:输入只剩棋盘上的黑白子,网络从随机参数开始,靠自我对弈的胜负信号训练,策略网络和价值网络合并成一个(残差网络架构),MCTS 也不再需要随机模拟到终局来估值。

结果是反直觉的:起点更“无知”的版本进步更快。72 小时后击败首尔版(对战 100:0),40 天后超过赢柯洁的 Master 版。学习曲线里有个迷人细节:它先独立重新发现了大量人类经典定式,然后又陆续抛弃了其中一部分,换成自己找到的更优下法——像快进播放了一遍围棋三千年的演化史,然后继续往前走。

人类知识是脚手架还是天花板

这篇论文最扎心的启示是:在规则明确、可以无限自我对弈的封闭领域里,人类经验非但不必要,还可能引入偏见、限制探索。模仿人类,上限就是人类。

但别急着推广到所有领域——Zero 范式的前提苛刻:完美模拟器、明确的胜负信号、零成本试错。围棋有,现实世界的大多数问题没有。所以正确的问题不是“Zero 能不能搞定一切”,而是“哪些问题可以被改造成有完美模拟器的形态”。能被改造的,人类经验都会面临同样的命运。

强化学习深度学习论文解读
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。