懂赛局理论的扑克牌 AI 打败人类职业牌手,更关键的是「AI 学会掌握随机性」

AI-.jpg
2016 年,AlphaGo 以 4:1 的成绩打败人类职业九段棋手李世乭,人工智慧受到全世界的关注;1 年后,一个名为 Libratus 的扑克牌 AI 在 20 天的马拉松式比赛中,打败 4 个人类德州扑克职业选手。相对于 AlphaGo 对李世乭, Libratus 的比赛受到的关注少得多了。然而,这场比赛对 AI 发展的重要性可不输 AlphaGo,因为 AI 学会了赛局理论与随机性的概念。

AI 惨电人类牌手,Libratus 赢得 20 万美元奖金
2017 年 1 月,展开了一场长达 20 天的德州扑克人机大赛,四名职业选手 Jason Lee、Dong Kim、Daniel McAulay 和 Jimmy Chou 分别与 Libratus 单挑。 Libratus 是卡内基梅隆大学的 Tuomas Sandholm 教授和他的研究团队开发的 AI 系统。最后 Libratus 打败人类牌手,获得 20 万美元(约新台币 600 万元)的奖金。

虽然这场扑克牌比赛的关注度不如 AlphaGo,但对 AI 来说,扑克牌的难度更高。在围棋比赛上,AI 可以看到棋盘上的布局,那是个公开资讯,对手手中的棋子也是已知的,所以围棋比赛属于「完整资讯博弈」,AI 可以根据布局,去推算最恰当的落子位置。

但扑克牌比赛中,对手的牌是隐藏的,属于「非完整资讯」,所以 AI 只能根据手中的牌和对手的出牌特性,推算对手的牌,并做出恰当的决策。

围棋是比较单纯的比赛,但扑克牌不能得知彼此手中的牌,所以有更多「bluff」的操作空间,也就是虚张声势、误导等技术;牌手需要恰当的掌控「随机性」,让对手不能猜到自己手中的牌。要如何掌握环境的随机性,并在出牌时也表现出随机性,对 AI 是个不小的挑战。

用赛局理论训练 AI,Libratus 的随机性表现胜过人类
Libratus 的特点是使用赛局理论训练,采用 纳许均衡 的对战策略,在纳许均衡,只要其他玩家的策略保持不变,单一玩家就无法透过变换策略获益。 Libratus 跟 AlphaGo 一样,也是藉由强化学习去提升自己的牌艺, Libratus 学习识别没有希望的策略,从而更快地找到纳许均衡点,也就是赛局中的「平衡」,找出最适合的策略,算出该以怎样的机率出掉手中的牌,也就是知道该如何「随机」出牌。

Duke 大学的 Vincent Conitzer 教授表示:「出牌的好坏取决于无法观察到的事情,这也代表参与游戏者需要变得不可预测。如果你从未虚张声势,那么你不是个好牌手;如果你总是虚张声势,你也不是好牌手。赛局理论则是教你如何随机化你的出牌,并找到最适点。」

百度首席科学家吴恩达也说:「扑克曾经是 AI 最难攻克的游戏之一,因为只能看到部分资讯。扑克并没有单一的最优下法。相反, AI 必须让自己的行动随机化,这样对手才无法猜出牌路。」

Libratus 的技术可在真实世界广泛应用
虽然 Libratus 打败人类牌手,但它只能在特定的游戏规则中(例如双人德州扑克)打败人类,如果换个玩法(例如多人德州扑克、牌七、桥牌、大老二), Libratus 就无法使用,需要再重新学习。

但 Libratus 的技术在真实世界中有更多的应用。一方面是赛局理论被广泛应用在交通分析、资安防护、导航与机器人等领域,此 AI 可以提升相关领域的分析成效。

二方面是世界的运作充满随机性,而人类面对世界有时也需要用随机性去应对,而 Libratus 在这方面做得比人类好,具有在不确定性的环境中的决策能力。这样技术可用于金融市场的交易策略,更可用于外交和军事博弈上,但这点就让人很不安了。