Libratus 血洗德扑职业牌手：不完全信息博弈也失守了

这次难在哪

围棋虽然复杂，但棋盘摆在那，双方信息完全对称。德州扑克不一样：对手的底牌你看不见，他的每次下注可能是实力也可能是诈唬——这是不完全信息博弈，纳什均衡策略本身就得包含随机性和欺骗。匹兹堡的“大脑对抗赛”上，CMU 的 Libratus 跟四位顶级职业牌手打了 20 天、12 万手一对一无限注德扑，最终赢了约 177 万筹码，统计显著性毫无悬念。

技术三件套

赛前：用反事实遗憾最小化（CFR 类算法）在抽象后的博弈树上逼近均衡策略，作为蓝图。
赛中：对实际到达的残局做实时子博弈精算，比赛前蓝图更精确——后期下注它经常算出人类没见过的尺度。
赛后：每晚分析职业牌手当天针对它找出的漏洞，优先修补被利用最多的分支。牌手们说“它每天醒来都变强”。

为什么值得在意

职业牌手赛后采访说，最难受的不是输，是“感觉被读心”——Libratus 的诈唬频率和下注尺度恰到好处地让你每个决定都难受。注意：它不是学会了“表演”，它只是把均衡策略算得够准，而均衡策略本身就该包含适量欺骗。谈判、拍卖、安全攻防，本质上都是不完全信息博弈。这条技术线的应用想象空间，恐怕比围棋大得多。

这次难在哪

技术三件套

为什么值得在意

每周一封，<5 分钟读完