~/ / posts / 2017-10-alphago-zero.md

AlphaGo Zero：扔掉人类棋谱，三天登顶

2017-10-18· 1 min read · [论文解读]

// TL;DR

Zero 完全抛弃人类棋谱和手工特征，只靠自我对弈 + 规则本身。
架构简化：策略与价值合并为单网络，搜索不再依赖随机模拟（rollout）。
三天超李世石版、40 天超 Master 版——人类先验在这里反而是负资产。

减法做到极致

初代 AlphaGo 的配方里有 16 万盘人类棋谱、48 个手工特征。Zero 把这些全删了：输入只剩棋盘上的黑白子，网络从随机参数开始，靠自我对弈的胜负信号训练，策略网络和价值网络合并成一个（残差网络架构），MCTS 也不再需要随机模拟到终局来估值。

结果是反直觉的：起点更“无知”的版本进步更快。72 小时后击败首尔版（对战 100:0），40 天后超过赢柯洁的 Master 版。学习曲线里有个迷人细节：它先独立重新发现了大量人类经典定式，然后又陆续抛弃了其中一部分，换成自己找到的更优下法——像快进播放了一遍围棋三千年的演化史，然后继续往前走。

人类知识是脚手架还是天花板

这篇论文最扎心的启示是：在规则明确、可以无限自我对弈的封闭领域里，人类经验非但不必要，还可能引入偏见、限制探索。模仿人类，上限就是人类。

但别急着推广到所有领域——Zero 范式的前提苛刻：完美模拟器、明确的胜负信号、零成本试错。围棋有，现实世界的大多数问题没有。所以正确的问题不是“Zero 能不能搞定一切”，而是“哪些问题可以被改造成有完美模拟器的形态”。能被改造的，人类经验都会面临同样的命运。

强化学习深度学习论文解读

cat newsletter.txt

每周一封，<5 分钟读完

把这一周我读过、想过、动手做过的东西，压缩成一封信。订阅者目前 5210+ 人，0 干扰。

查看往期 →