世界上最精通博弈论的三个人:冯诺依曼、郑开司、倪永孝

马达まだ
2019-03-09 看过

最初想要看这部本书,是因为历史频道的一部纪录片。

按照那部纪录片的讲述,二战时德国和美国同时进行着原子弹计划。

两国原子弹项目的负责人都是大名鼎鼎的人物。德国这边是海森堡,美国这边是奥本海默。

故事的结局却令人唏嘘。

海森堡没有发明出原子弹,德国战败投降。海森堡在战后,继续从事科研工作,成为科学史上鼎鼎有名的大人物。

美国发明出原子弹,并把它投放到日本的广岛和长崎。可原子弹的影响却不只是让日本人投降和幻想出哥斯拉这么简单。它让人们开始反思人类是否需要拥有杀伤力如此巨大的武器。这也让奥本海默成为千古罪人,他打开了一个潘多拉魔盒,却不知道怎么关上。于是,二战后,奥本海默退出了科研界,背负着原子弹之父的虚名和千古罪人的骂名渐渐淡出历史舞台。

那么,问题来了,人类是不是不应该发明原子弹呢?

同样的难题,也会出现在未来。在科幻小说《三体》中,刚刚成为执剑人的程心,凳子都还没坐热,就遇到了三体人突然袭击。

现在,她手上有一个按钮,只要把它摁下去,就会向宇宙广播地球的位置,和三体人同归于尽,人类也许还有希望。不摁,地球则会成为三体人的殖民地,人类会在强大的三体人统治下走向灭亡。

结果,程心选择不摁,然后…她被未来人类和大部分现代网友骂成了狗。

这就是所谓囚徒的困境,奥本海默发明不发明原子弹,程心摁不摁那个按钮,其实都不是绝对正确。历史选择让他们替全人类做这个决定,然后成为了替罪羔羊。

而奥本海默的好友,另一位鼎鼎有名的科学家冯·诺伊曼,用数学的思维去分析这件事,他认为在面对这样的困境时,摁动按钮的选择是正确的。

这套用数学方法解决囚徒困境的方法,我们现在更习惯称呼它为博弈论。

博弈论缘起于一种法国游戏:Kriegespiel。传说这款游戏由拿破仑发明,本来是军事学校中用来培养战略思维的课程,后来成为了欧洲贵族中比较流行的娱乐活动。

这款神奇的游戏,除了帮助冯诺依曼构思出博弈论外,还是现代RPG游戏的缘起,什么《龙与地下城》都是在它的基础上发展起来的。在现在市面游戏中常见的战棋玩法,就继承于kriegespiel

电子游戏中的战棋玩法

先把战棋游戏放在一边不表,我们只说博弈论。要想弄清博弈论的原理,就想要说一下囚徒困境到底是什么样的。大部分应该都曾在诺兰的电影《蝙蝠侠》中见过下面这个场景:

电影中丑爷抓了两船人,分别在他们的船上按了定时炸弹,在一定时间后,定时炸弹会爆炸,如果其中一方按下按钮,对方的船就会立刻爆炸,而自己就能得救。在这种情况下,获救的可能只有三种:

1.蝙蝠侠冲过来,打败丑爷,拯救所有人

2.你选择摁动按钮,对方死,你获救

3.对方先摁动按钮,你死,对方获救

当然,还有最后一种情况,蝙蝠侠没来,没有任何人摁动按钮,倒计时结束,炸弹爆炸,大家抱着一起死。

从博弈论的角度上看,最后一种方法是最不可取的,第一种方法的成功率又是最小的,最合理的方法是选择背叛。

可看过《自私的基因》的朋友都应该知道,生物在进化过程中,靠的就是协同合作,那些选择背叛的人,会被视为不守规矩,踢出族群。所以,他们的基因没有被流传下来,才会有我们这些被囚徒困境困扰的后代。

而生物在进化过程中,在遇到囚徒困境问题时,没有百分百选择背叛,是因为在囚徒困境中有三种不同的回报模式:

奖励式回报、傻子式回报、引诱式回报

为了尽可能简单的说清,这三种回报模式,我会以一部涉及博弈论的电影《动物世界》,作为例子来讲述。

在电影中,主角郑开司刚上船,还是个小白,不是很懂游戏规则,一开局就着了坏人的道。

那个人跟他提议,合作十二局,十二个平局,大家都不会输掉星星,同时还能用完手上的牌。

一开始的时候,大家都遵守约定,于是没人输掉星星。双方合作实现共赢,这就是奖励式回报。

可在倒数第二局的时候,开司突然输了一局。这时,反派其实就开始违反约定,背叛了开司,并取得了欺骗这个傻子后的双倍回报,即傻子式回报,也叫欺骗回报。

最后一局,反派再次欺骗开司,说会在下一局输给他,让他赢回一颗星,并把自己要出的剪刀展示给开司看。谁知道,最后掀开牌,对方出的是锤子不是剪刀,开司又输掉一颗星。对方获得引诱式回报。

把这整个过程十二局,看成一个红蓝键的问题就是这样的:

红键代表合作,蓝键代表背叛。

于是就会出现四种可能:

1.双方都摁红键,双方身上的星星不变。

2.开司摁红键,反派摁蓝键,开司输掉一颗星。反派赢一颗星

3.反之,反派输掉一颗星,开司赢一颗星。

4.双方都摁蓝键,双方都输一颗星。

在这样的情况下,是不是谁先背叛,谁获利的机会更大呢?所以反派才会在合作即将结束时选择背叛。但如果把十二局比试放大到生物进步几亿年的历史,则变成合作这种稳定的模式,更加有利。

不过,之所以会出现囚徒困境的难题,正是因为人不是长生不死。既然总有一天要结束这场游戏,那么在临死之前,选择背叛,进而获得最大利益也是理所因当。

问题最难的地方也正在此。当两个人之间产生不信任感之后,可能到来的背叛也许不会在最后一局出现,而是第一局就出现了。在这个时候,人与人之间的博弈才刚刚开始。

现在假设,坐在你对面这个人已经决定不跟你合作,那么你们就不能走求稳的路线了,只能通过博弈的方法,猜测对方会摁什么键,然后从中获利。

开司通过均衡思维的假设推断出对手的可能会出的牌,取得了短暂的胜利,可是冯诺依曼认为,这样的胜利是偶然的,多少有一些运气成份。在博弈中真正百分百胜利的模式是零和博弈。

那么什么是零和博弈?请看下图:

开司试图控制在场所有拳头,等布消耗完后,出来作威作福。这就是典型的零和博弈。零和博弈是在精密的布局后,把对方的选择局限在唯一一个选项上,无论如何对方也会走出这一步,只要你用特定的方法应对,便可取胜。

不过,以上两种玩法都属于高段玩家。至于我们这些不善于计算,也不善于布局的普通人,在面对囚徒困境时,最好的原则就是:一报还一报。

什么是一报还一报?

想要知道这个问题的答案就不得不说一下,我们低端玩家中的翘楚,倪永孝孝哥,他一句出来混总是要还的,说尽了一报还一报在博弈中的实际用法。

以刚才开司的经历为例,通常一场博弈中,我们可某人达成协议,形成winwin双赢的局面。

不过按照博弈论的看法,对方在达成协议后,可能还会做出下列三种选择:

1.百分百忠诚

2.百分百背叛

3.随机背叛或忠诚

如果,你遇到百分百忠诚的情况那是最好,可是对方一旦背叛你,这个时候选择背叛或忠诚就很重要。

如果你一味按照约定行事,则会被对方占尽便宜。所以在对方对方第一次背叛你后,就立刻使用一报还一报,你也背叛他,才会让对方停止背叛,让游戏重回正轨。

不过这样做,也是有风险的。如果双方都不退让,很有可能出现“回声效应”。

回声效应最典型的例子就是古巴导弹危机。美苏双方谁都不肯退让,最后的结果就是剑拔弩张。

不得不说,当是若不是赫鲁晓夫及时悬崖勒马,一场世界大战可能就这么爆发,也未可知。

往往在博弈中,很少有人会主动认输,率先递出橄榄枝。因为这就会陷入“胆小鬼困境”。

胆小鬼困境这个词来自美国电影《无因的反叛》。

故事的主角,是一群飞车少年。他们会在悬崖上面对面飞车,谁先刹车或者狂打方向盘躲开,就会被视作胆小鬼。可是如果没有人这么做两辆车就会相撞,主角只有在撞车的一瞬跳崖,才有可能存活。

天啊,那可是跳崖呀,为什么不狂打方向盘,一人退一步,恢复到Winwin双赢的状态呢?

电影《无因的反叛》

关于博弈论的问题到这里已经说的差不多了。不过,好像我还没有回答开头的那个问题:

为什么人类要拥有原子弹。

在上面这些分析之后,我们不难发现,按照人类趋利的天性,大部分人在囚徒困境面前,会选择背叛。现在不背叛可能是考虑长远利益,或者给你设个陷阱。

至于原子弹就是一个筹码,它加大了对方背叛你的代价,让你在遭到背叛时可以一报还一报。

就像电影《动物世界》中,开司被关进小黑屋,靠着对同伴的信任他觉得自己会被救,结果却让他失望。

最终他靠偷盗了他人的钻石,以钻石为筹码拯救了自己。

假如我们现在也生活在动物世界里,手中没有原子弹,我们又能靠什么筹码脱离囚徒的困境呢?

1 有用
0 没用

查看更多豆瓣高分好书

评论 3条

添加回应

囚徒的困境的更多书评

推荐囚徒的困境的豆列

了解更多图书信息

豆瓣
免费下载 iOS / Android 版客户端