怎样开发“逢赌必赢”的德州扑克机器人？

业界动态 2016-03-01 00:07:05 转载来源: 网络整理/侵权必删

站长搜索讯每年夏天，世界上最好的扑克机器人都会聚到一起——其实是开发它们的计算机科学研究人员聚到一起——举办一个扑克锦标赛。近年来，有三个机器人团队显露了比较明显的优势：第一个是阿尔伯塔大学的团队，目前有大约十几人在开发扑克程序

怎样开发“逢赌必赢”的德州扑克机器人？

站长搜索讯每年夏天，世界上最好的扑克机器人都会聚到一起——其实是开发它们的计算机科学研究人员聚到一起——举办一个扑克锦标赛。近年来，有三个机器人团队显露了比较明显的优势：第一个是阿尔伯塔大学的团队，目前有大约十几人在开发扑克程序。接下来是卡内基梅隆大学的团队，他们的扑克机器人名为 “Tartanian”。然后是独立研究者埃里克·杰克逊（Eric Jackson），他开发了一个名为“Slumbot”的程序。

锦标赛采用的规则分好几种，各个团队会根据规则不同对机器人的“个性”进行调整。有些比赛采用淘汰制，每一轮都有两个机器人互相对抗，到结束时，筹码最少的机器人会被淘汰。为了赢得这种比赛，机器人需要有强大的求生本能。它们的得分只要能顺利进入下一轮就足够了——太贪心不是好事。然而，在另外一些比赛中，总分最多的机器人才能获胜。在这些比赛中，机器人就需要尽可能地每场多赢一些，因此它们需要有更强的进攻性才行。

大多数参加锦标赛的机器人已经开发了好多年，经过成百上千万次，乃至数十亿次的扑克训练。然而，锦标赛的奖金并不多。获胜的研究人员可能会觉得很自豪，赚到了吹牛的资本，但他们获得的奖金数目和拉斯维加斯没法比。那么，这其中的诱惑又是什么呢？

扑克与象棋的不同之处

每当一台计算机玩扑克的时候，它面对的是一个我们大家都很熟悉的问题：如何处理缺少的信息。

在一些游戏中，比如下象棋的时候，信息不是一个问题。玩家可以看到的一切。他们知道哪个棋子在哪里，对手是怎么走棋的。这种游戏的关键不在于玩家无法观察到事情，而在于他们无法处理所有可用的信息。这就是为什么一只猴子随便下的棋有可能（尽管可能性很渺茫）打败象棋大师的原因。

有了良好的玩游戏算法——以及强大的计算能力——信息处理问题是可能破解的。所以阿尔伯塔大学计算机科学家乔纳森·谢弗（Jonathan Schaeffer）和同事们开发了完美的跳棋策略，形成了计算机如何破解国际象棋的一些理论。机器可以计算所有不同的棋子走法，用纯粹的蛮力法击败对手是有可能的。但扑克就不一样了。无论扑克玩家的牌技都多精湛，都必须面对这样一个事实：你看不到对方的牌。虽然扑克游戏也有规则和限制，但总是存在着一些未知因素。

在生活中，很多问题也有同样的特点。比如谈判、拍卖、议价——都是不完全的信息博弈。 “扑克是一个完美的缩影，可以代表我们在现实世界中遇到的很多种状况。”谢弗说。

“仙王座”驾到

2015年，阿尔伯塔的研究人员在《科学》杂志上发表了一篇关于“仙王座”（Cepheus）扑克程序的文章，标题是《双人限注德州扑克被攻破》（H eads-Up Limit Hold’em Poker Is Solved）。

在进行了大量的训练后，仙王座可以成为扑克高手。为了积累经验，它一直不断地玩扑克，大约每秒种两千局。随着时间的推移，它越来越善于探索可能的组合，这意味着在它的出牌策略中，对手可以攻击的薄弱环节越来越少。最终，这个机器人学会了（从长远来看）如何避免失败，哪怕它面对的是一个无懈可击的玩家。研究人员用“遗憾最小化”算法来对仙王座加以完善：每场比赛之后，它会进行回顾，考虑如果用另外的方式出牌，可能会出现怎样的情况，然后再利用这些信息，从错误中学习技能。

仙王座已经表明，即使在复杂的情况下，它也可以找到一个最优化的策略。研究人员指出，在一系列其他场景，比如设计守卫巡逻路线，研发医药疗法等等中，这种算法可能也会相当有用。

当然，这项研究还有一个不那么实用的原因。该团队在这篇科技论文的末尾引用了阿兰·图灵的一句话，大意是说，我们做这项工作的主要动机是因为它充满了乐趣。

人类处在劣势了吗？

电脑程序在象棋、跳棋、扑克游戏中表现不凡，你可能会觉得，人类在这样的比赛不再具有竞争力了。图灵曾指出，如果一个人试图假装自己是一台机器，“他就会表现得很糟糕。”让一个人来做计算，他的速度会比计算机慢得多，而且还更容易算错。

即便如此，这个世界上仍然存在着一些令机器人发懵的情况。在玩智力游戏《危险边缘》（Jeopardy!）的时候，IBM机器人“沃森”对长度较短的线索最感头痛。如果主持人说出一个类别和一个名称，比如“第一夫人”和罗纳德·里根 —— 沃森需要很长时间才能在其数据库搜索找到正确的回应（“谁是南希·里根？”）在这个节目中，如果主持人给出的线索较长，也比较复杂，沃森就可以击败人类选手，但是如果线索只有几个词，人类就会占上风。在问答节目中，“简洁”似乎是机器人的天敌。

扑克游戏也是如此。机器人需要时间来研究对手的出牌方式，然后加以利用。而职业扑克玩家可以更迅速地摸清其他玩家的手法。 “人类善于利用很少的数据来做出有关对手的假设，”谢弗说。

阿尔伯塔大学的扑克团队也发现，人类特别容易受到强硬战术的影响。 “一般来说，人类扑克高手在击败对手的策略方面，虚张声势是很重要的一条，” 阿尔伯塔大学的计算机科学研究员迈克尔·约翰森说。 “虚张声势策略给对手施加了很大的压力，让他们做出艰难的决定，因此往往非常有效。”在和人类玩家玩牌时，机器人也试图模仿这种行为，引发对手的错误。

也就是说，机器人似乎可以通过模仿人类的行为来获得很多优势。有时候，就连模仿人类的缺陷也会带来好处。（Kathy）

推广：微信搜索关注“好多娱”公众号，聚焦新文娱领域，聊八卦、看趋势。你的娱乐圈，我的科技圈。

怎样开发“逢赌必赢”的德州扑克机器人？