博弈论之纳什均衡与囚徒困境

时间:2024-02-25 07:38:23

一、前言

在博弈论中,纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。

1.1 博弈论

博弈论(英语:Game Theory),又译为对策论或赛局理论,是经济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
其中一个有名有趣的应用例子是囚徒困境

1.2 纳什

约翰·福布斯·纳什(John Forbes Nash Jr.,1928年6月13日-2015年5月23日),美国数学家,前马萨诸塞理工学院摩尔荣誉讲师,主要研究博弈论微分几何学偏微分方程。晚年为普林斯顿大学的资深研究数学家。

在这里插入图片描述
1950年,22岁的纳什他以非合作博弈(Non-cooperative Games) 为题的博士论文毕业并获得美国普林斯顿大学的博士学位。他在仅仅28页的博士论文中提出了一个重要概念,也就是后来被称为“纳什均衡”的博弈理论,这成为博弈论中一项重要突破,并广泛运用在经济学、计算机科学、演化生物学、人工智能、会计学、政策和军事理论等方面,这些研究的四篇主要论文分别是:
【1】Equilibrium points in n-person games
【2】The Bargaining Problem
【3】Non-Cooperative Games
【4】Two–Person Cooperative Games

除了“纳什均衡”,他最重要的数学成就是在微分几何偏微分方程的领域,特别是黎曼流形等距嵌入到欧氏空间的一系列结果。

在1959年之后,由于出现精神上的症状,他的研究生涯曾经中断,在1959年及1961年两度进入医院疗养,被诊断为思觉失调症。纳什拒绝接受精神药物治疗,在1970年后,症状逐渐好转,因此再度回到学术研究工作。他这段时间的经历,由Sylvia Nasar写成传记,并翻拍为电影《美丽心灵》,使得他的事迹广为人知。

2015年5月23日因车祸不幸身亡。

1.3 胆小鬼博弈

胆小鬼博弈(Chicken Game)是博弈论中一个影响深远的模型。其基本原理是,一个玩家让步对于双方都有好处,而玩家的最佳选择取决于其对手会做什么:如果对手让步,那本方就不应该让步,但如果对手不让步,本方就应该让步。简而言之就是“不要命的最大”。
胆小鬼博弈”这一名称的由来的由来是一种危险的游戏,游戏中两名车手相对驱车而行。如果两人拒绝转弯,任由两车相撞,最终两人都会死于车祸;但如果有一方转弯,而另一方没有,那么转弯的一方会被耻笑为“胆小鬼”(chicken),另一方胜出,因此这博弈模型在英文中称为“The Game of Chicken”(懦夫游戏),该术语在政治学和经济学中普遍使用。收益矩阵用(X,X)表示,其可以用下表表示:

表1 博弈过程的收益矩阵
示弱死磕
示弱(2,2)(1,3)
死磕(3,1)(0,0)

认怂固然丢面子,但相比玉石俱焚的结果来说,保命显然更重要。因此对一个足够理性的人来说,应该在他能够控制的最后时刻选择果断认怂。而如果甲方相信乙方是一个足够理性的人的话,那他应该能够预料到乙方会在最后时刻放弃,所以甲方的最佳策略是死磕到底,对应的结果就是(3,1),类似的情况反转过来是(1,3)。当然要是双方都这么想的话,最后的结果很可能是(0,0)。

有趣的是,在胆小鬼博弈中当一方的选择受到了限制时,其赢面可能会变大。例如,甲方的方向盘被锁死,不得不选择死磕的话,乙方再傻也会知道识时务者为俊杰,选择认怂的结果 1要远好于同归于尽的 0。

通常,(3,1)和 (1,3)被称为胆小鬼博弈的纳什均衡点,即在这个状态下,如果一方不改变其策略,不论对方采取什么策略都不会有更大收益。例如,对于(3,1)而言,甲方心意已决,就算乙方将对策由认怂改为死磕,结果也是两败俱伤而不会收益更高。类似的,如果乙方已经决定认怂,甲方不再死磕也选认怂的话,其收益将从 +1 变为 0。
在这里插入图片描述

这种博弈也被用于描述核战争中的相互保证毁灭,特别是古巴导弹危机

参考:人类接近毁灭的危机:古巴导弹危机是怎么解决的?李永乐老师讲胆小鬼博弈

事实上,这也属于胆小鬼博弈:
在这里插入图片描述

1.4 囚徒困境

一个经典的囚徒困境描述如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开*嫌疑犯,分别审讯二人,并向双方提供以下选择:认罪并作证检控对方(坦白)或是抗拒
在这里插入图片描述

若一人选择坦白,而对方选抗拒,则此人将立刻获得释放,另外一人将被判10年。

若二人都选择坦白,则二人同样判5年。若二人都选择抗拒,则二人同样判监1年。

我们可以用一张表格来表述:

表2 博弈过程的收益矩阵
坦白抗拒
坦白(-5,-5)(0,-10)
抗拒(-10,0)(-1,-1)

如果你是其中之一,只考虑尽量使自己服刑年份最小化的话,你会怎么选?我相信大部分的人会选择“坦白”,确实有太多理由让人选择坦白了,比如有人坚信对方会背叛你,而你不愿意选择抗拒而服刑10年,所以你选择坦白而服刑5年。他的理由对他来说已经很充分了,但是我们还需要考虑另一种情况,就是乙坚信甲不会背叛他,那么乙应该选择什么?乙还是应该选择坦白,因为乙选择坦白就能立即获释,而乙选择合作还需要服刑半年。在这种情况下,无论甲作何选择,对乙来说选择背叛总是优于选择合作,那么我们称坦白是乙的“优势策略”。无论是实验的事实还是简单的分析,都告诉我们背叛是每个人的最佳选择。
所以最终两个人都会选择坦白,而同服刑5年,这就是囚徒困境的结果。

1.5 智猪博弈

在博弈论中,“智猪博弈”是一个著名的纳什均衡的例子。
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会消耗2个单位的体力。按钮和猪食槽在相反位置,按按钮的猪要付出2个单位的成本,并且丧失了先到槽边进食的机会。
若小猪先到槽边进食,因为体量较小,进食的速度一般,最终大小猪吃到食物的比率是6∶4;若同时到槽边进食,大猪进食速度加快,最终大小猪收益比是7∶3;若大猪先到槽边进食,大猪体量较大,最终大小猪收益比9∶1。
那么,在两头猪都有智慧的前提下,最终结果是:小猪选择等待,大猪去按按钮
原因很简单:

二、纳什均衡

2.1 纳什均衡定义

纳什均衡(Nash equilibrium)是一个经济学上的概念,又称非合作博弈(Non-cooperative game)均衡,由诺贝尔经济学奖,博弈论创始人约翰·纳什提出。

2.2

纳什均衡是指在包含两个或以上参与者的非合作博弈中,假设每个参与者都知道其他参与者的均衡策略的情况下,没有参与者可以透过改变自身策略使自身受益时的一个概念解。

在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。
一个策略组合被称为纳什平衡,当每个博弈者的平衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。

假设每个参与者都知道其他参与者的均衡策略的情况下,没有参与者可以透过改变自身策略使自身受益时的一个概念解。
在博弈论中,如果每个参与者都选择了自己的策略,并且没有玩家可以透过改变策略而其他参与者保持不变而获益,那么当前的策略选择的集合及其相应的结果构成了纳什均衡。即若 p i ( s ) = m a x r i [ p i ( s ; r i ) ] p i ( s ) = m a x r i [ p i ( s ; r i ) ] {\displaystyle p_{i}(s)=max_{r_{i}}[p_{i}(s;r_{i})]}p_{i}(s)=max_{{r_{i}}}[p_{i}(s;r_{i})] pi(s)=maxri[pi(s;ri)]pi(s)=maxri[pi(s;ri)],则称s为纳什均衡点,其中: p i p i {\displaystyle p_{i}}p_{i} pipi为参与者i的收获(payoff), s i s i {\displaystyle s_{i}}s_{i} sisi代表所有参与者之策略,{\displaystyle r_{i}}r_{i}代表参与者i的一种可能策略, ( s ; r i ) ( s ; r i {\displaystyle (s;r_{i})}(s;r_{i} (s;ri)(s;ri) 指参与者i单方面改变策略为 r i r i {\displaystyle r_{i}}r_{i} riri

看到最后,或许你有些许收获,或许你一脸懵逼,但玩一局游戏再走吧,在这里,你能体会到博弈论的奥妙所在:信任的进化

参考:
【1】约翰·福布斯·纳什