Libratus 血洗德扑职业牌手:不完全信息博弈也失守了
// TL;DR
- 德扑是不完全信息博弈:看不见对手底牌,靠概率和心理战。
- Libratus 三件套:博弈树抽象求解 + 子博弈实时精算 + 每晚自我修补漏洞。
- 围棋之后,又一类“机器搞不定”的智力活动失守。
这次难在哪
围棋虽然复杂,但棋盘摆在那,双方信息完全对称。德州扑克不一样:对手的底牌你看不见,他的每次下注可能是实力也可能是诈唬——这是不完全信息博弈,纳什均衡策略本身就得包含随机性和欺骗。匹兹堡的“大脑对抗赛”上,CMU 的 Libratus 跟四位顶级职业牌手打了 20 天、12 万手一对一无限注德扑,最终赢了约 177 万筹码,统计显著性毫无悬念。
技术三件套
- 赛前:用反事实遗憾最小化(CFR 类算法)在抽象后的博弈树上逼近均衡策略,作为蓝图。
- 赛中:对实际到达的残局做实时子博弈精算,比赛前蓝图更精确——后期下注它经常算出人类没见过的尺度。
- 赛后:每晚分析职业牌手当天针对它找出的漏洞,优先修补被利用最多的分支。牌手们说“它每天醒来都变强”。
为什么值得在意
职业牌手赛后采访说,最难受的不是输,是“感觉被读心”——Libratus 的诈唬频率和下注尺度恰到好处地让你每个决定都难受。注意:它不是学会了“表演”,它只是把均衡策略算得够准,而均衡策略本身就该包含适量欺骗。谈判、拍卖、安全攻防,本质上都是不完全信息博弈。这条技术线的应用想象空间,恐怕比围棋大得多。