session://14:29:33
~/ / posts / 2017-01-libratus-poker.md

Libratus 血洗德扑职业牌手:不完全信息博弈也失守了

2017-01-31· 1 min read · [论文解读]
// TL;DR
  • 德扑是不完全信息博弈:看不见对手底牌,靠概率和心理战。
  • Libratus 三件套:博弈树抽象求解 + 子博弈实时精算 + 每晚自我修补漏洞。
  • 围棋之后,又一类“机器搞不定”的智力活动失守。

这次难在哪

围棋虽然复杂,但棋盘摆在那,双方信息完全对称。德州扑克不一样:对手的底牌你看不见,他的每次下注可能是实力也可能是诈唬——这是不完全信息博弈,纳什均衡策略本身就得包含随机性和欺骗。匹兹堡的“大脑对抗赛”上,CMU 的 Libratus 跟四位顶级职业牌手打了 20 天、12 万手一对一无限注德扑,最终赢了约 177 万筹码,统计显著性毫无悬念。

技术三件套

  • 赛前:用反事实遗憾最小化(CFR 类算法)在抽象后的博弈树上逼近均衡策略,作为蓝图。
  • 赛中:对实际到达的残局做实时子博弈精算,比赛前蓝图更精确——后期下注它经常算出人类没见过的尺度。
  • 赛后:每晚分析职业牌手当天针对它找出的漏洞,优先修补被利用最多的分支。牌手们说“它每天醒来都变强”。

为什么值得在意

职业牌手赛后采访说,最难受的不是输,是“感觉被读心”——Libratus 的诈唬频率和下注尺度恰到好处地让你每个决定都难受。注意:它不是学会了“表演”,它只是把均衡策略算得够准,而均衡策略本身就该包含适量欺骗。谈判、拍卖、安全攻防,本质上都是不完全信息博弈。这条技术线的应用想象空间,恐怕比围棋大得多。

强化学习人工智能论文解读
cat newsletter.txt

每周一封,<5 分钟读完

把这一周我读过、想过、动手做过的东西,压缩成一封信。订阅者目前 5210+ 人,0 干扰。