session://14:29:33
~/ / posts / 2016-03-alphago-lee-sedol.md

4:1,第 37 手:AlphaGo 战胜李世石的一周

2016-03-15· 1 min read · [深度思考]
// TL;DR
  • AlphaGo 4:1 获胜,全球两亿多人观看了直播。
  • 第二局第 37 手:人类棋手眼中“不可能的一手”,机器算出的胜率最优解。
  • 第四局李世石第 78 手挖出 AlphaGo 的盲区,证明它强大但不完美。

比赛本身

三月 9 日到 15 日,首尔四季酒店,AlphaGo 对李世石五番棋。赛前李世石放话 5:0 或 4:1 获胜——方向对了,主语错了。最终 AlphaGo 4:1,第一局获胜时整个围棋界还在懵,第三局结束锁定胜局时,解说席上职业九段们的表情我这辈子都忘不了。

两手棋,两个瞬间

第二局第 37 手,AlphaGo 在五路肩冲——职业棋手的第一反应是“程序出 bug 了”,因为人类棋理里这手棋“不成立”。但复盘显示这手棋极深远。DeepMind 后来透露,AlphaGo 估计人类棋手下这手的概率不到万分之一,但它自己算出来这是最优。换句话说:它没有在模仿人类,它在棋盘上发现了人类三千年没走过的路。

第四局第 78 手,轮到人类还击。李世石长考后在中腹挖出妙手,AlphaGo 的胜率评估瞬间崩塌,连出昏招——这手被称为“神之一手”。它暴露了一个重要事实:AlphaGo 的价值网络存在盲区,在极低概率的分支上估值会失真。

这一周意味着什么

对围棋,AI 从对手变成了老师——已经有职业棋手开始研究第 37 手背后的思路。对行业,这是深度强化学习最好的广告:据说韩国政府赛后宣布追加上万亿韩元的 AI 投资。对我们这些从业者,最值得记住的是第 37 手和第 78 手的并存:前者证明机器可以超越人类先验,后者提醒我们它的失效模式藏在分布的尾部。一个系统强大和它可靠,是两件事。

强化学习人工智能行业动态深度学习
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。