博弈均衡和纳什均衡区别,如何达到纳什均衡

欢迎转载，请注明转载。本文来自体贴荔枝专栏blog.csdn.net/xbinworld。

技术交流QQ群： 433250724，欢迎对算法、技术感兴趣的同学。

纳什均衡(或称纳什均衡)、Nash equilibrium、非合作博弈均衡，是博弈论的重要战略组合，以土豪灰狼命名。

土豪的灰狼，出生于1928年6月13日。著名经济学家，博弈论创始人，《美丽心灵》主人公原型。前麻省理工学院副教授、继任者普林斯顿大学数学系教授，主要研究博弈论、微分几何学、偏微分方程。他和另外两位数学家(经济学家、文艺西牛和超帅土豆)在非合作博弈均衡分析理论方面做出了开创性贡献，对博弈论和经济学产生了巨大影响，并于1994年获得诺贝尔经济学奖。

纳什的人生非常曲折，即使一次学术成果没有得到认可，得了严重的精神分裂症，在爱的力量作用下经过多年奇迹般地恢复，最终获得了纤细的蜜蜂经济学奖。电影《美丽心灵》(abeautifulmind )是根据同名传记改编而获得奥斯卡金像奖的电影，以土豪的灰狼、善良的手机艾丽西娅(离婚后，于2001年复婚)和普林斯顿的朋友、同事的真实故事为题材，进行了这一关爱

年轻时的Nash，真帅啊

纳什均衡定义经济学定义[3]

纳什均衡是参与者的这种策略组合，在这种策略组合中，参与者单独改变策略不会带来好处。也就是说，如果在一个战略组合中，所有其他人都不改变战略，而没有人能改变自己的战略，那么这个战略组合就是纳什均衡。

数学定义

纳什均衡的定义：在博弈g=(s1，…，Sn:u1，…，un，)中，在由各博弈方的各策略组成的某个策略组合(s1*，…，sn* )中，任一博弈方I的策略si*都是

http://www.Sina.com/:经济学的定义字面上比较容易理解。在这里稍微解释一下数学的定义，博弈论也叫Game Theory，游戏用g表示，si表示游戏端I的战略，ui表示收益。因此，“纳什均衡”意味着任何一方采取的战略是将战略组合到所有其他各方的最佳对策注

纳什证明，所有参与者都只有有限的战略选择，在允许混合战略的前提下，纳什均衡一定存在。以两家公司的价格战争为例，纳什均衡意味着两败俱伤的可能性。在对方不改变价格的条件下，也不能涨价，否则会进一步失去市场。也不能打折。因为会发生亏本大甩卖。所以两家公司可以改变原有的利润结构，通过谈判寻求新的利润评估分配方案，也就是Nash均衡。同样的推论当然也适用于选举、集团间的利益冲突、潜在的战争爆发前的僵局、议会上的法案争论等。

纳什均衡案例以下介绍几种经典纳什均衡案例[2][4]。本文主要以科普为主，案例不涉及复杂深奥的经济学问题(其实，我也不知道，哈哈~ )。

当所有其他人都不改变策略时，为了让自己的收益最大，任何一方都不会（或者无法）改变自己的策略，这个时候的策略组合就是一个纳什均衡。

假设两个小偷a和b共同闹事，私闯民宅被警察逮捕了。警方将两人关进不同的两个房间进行审讯，针对每一个嫌疑人，警方出台的政策是，如果一名嫌疑人供认罪行，交出赃物，证据确凿，两人都有罪。如果另一名嫌疑人也供认不讳，两人将分别被判处8年监禁。另一嫌疑人不坦白否认的，以妨碍执行公务罪(因为有证据表明已经有罪)再加刑2年，有供认者功绩的减刑8年，立即释放。如果两人都推脱，警方因证据不足不能判处两人偷窃罪，但可以因个人进入民宅罪将两人各监禁一年。

这时，两个嫌疑人之间的游戏诞生了：

表中的数字表示了a、b各自的判断结果。博弈论分析中一般用这样的表来表示。

这种情况，显然双方推脱是最好的办法，结果大家只被判了一年。但是，由于两人是隔离的，首先从心理学上看，当事双方应该会怀疑背叛自己，其次是追求粗暴指甲油的理论，如果每个人都是“理性经济人”，就会从自私的目的出发进行选择。对这两个人，如果他坦白了，如果我否认了，就要坐十年监狱。如果我坦白最多也不过八年。如果他抵赖，如果我也抵赖，我会被判一年，如果我坦白，他会被释放，他会坐十年牢。综合以上几种情况来看，不管他是否坦白，对我来说坦白比较划算。两人都动了这样的脑筋，最终，两人都选择了告白，最后被判了8年刑期。

注：粗糙的指甲油理论(“看不见的手”原理)在市场经济中，每个人都是从自私的目的出发，最终达到全社会无私的效果。但我们可以从纳什均衡中引出“看不见的手”原理的悖论。出于自私的目的

发，结果损人不利己，既不利己也不利他。

（2）智猪博弈

猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

（3）普通范式博弈

GOO公司和SAM公司是某手机产品生态的两大重量级参与者，双方在产业链的不同位置上各司其职且关系暧昧，有时也往往因商业利益和产品影响力的争夺而各怀异心。二者的收益也随着博弈的变化而不断更替。

上图表格模拟了两家公司的博弈现状，双方各有两个可选策略“合作”与“背叛”，格中的四组数据表示四个博弈结局的分数（收益），每组数据的第一个数字表示GOO公司的收益，后一个数字表示SAM公司的收益。

博弈是同时进行的，一方参与者必须站在对方的角度上来思考我方的策略选择，以追求收益最大化。这在博弈论里称作Putting yourselves into other people’s shoes。

现在我们以GOO公司为第一人称视角来思考应对SAM公司的博弈策略。假如SAM公司选择合作，那么我方也选择合作带来的收益是3，而我方选择背叛带来的收益是5，基于理性的收益最大化考虑，我方应该选择背叛，这叫严格优势策略；假如SAM公司选择背叛，那么我方选择合作带来的收益是-3，而选择背叛带来的收益为-1，为使损失降到最低，我方应该选择背叛。最后，GOO公司的分析结果是，无论SAM公司选择合作还是背叛策略，我方都必须选择背叛策略才能获得最大化的收益。

同理，当SAM公司也以严格优势策略来应对GOO公司的策略选择时，我们重复上述分析过程，就能得出结论：无论GOO公司选择合作还是背叛策略，SAM公司都必须选择背叛策略才能获得最大化收益。

最后我们发现，本次博弈的双方都采取了背叛策略，各自的收益都为-1，这是一个比较糟糕的结局，尽管对任何一方来说都不是最糟糕的那种。这种局面就是著名的“囚徒困境”。

但是，博弈的次数往往不止一次，就像COO与SAM公司双方的商业往来也许会有很多机会。当二者经历了多次背叛策略的博弈之后，发现公式上还有一个（3，3）收益的双赢局面，这比（-1，-1）的收益结果显然要好很多，因此二者在之后的博弈过程中必然会尝试互建信任，从而驱使双方都选择合作策略。

这里有一个理想化假设，那就是假设双方都知道博弈次数是无限的话，也就是说双方的商业往来是无止尽的，那么二者的策略都将持续选择合作，最终的博弈收益将定格在（3，3），这就是一个纳什均衡。既然博弈次数是无限的，那么任何一方都没有理由选择背叛策略去冒险追求5点短暂收益，而招致对方在下一轮博弈中的报复（这种报复在博弈论里称作“以牙还牙”策略）。

还有另一种假设情况是，假使双方都知道博弈次数是有限的，也许下一次博弈就是最后一次，那么为了避免对方在最后一轮博弈中选择背叛策略而使我方遭受-3的收益损失，于是双方都重新采取了背叛的策略选择，最后的博弈结果又回到了（-1，-1），这就形成了第二个纳什均衡。

由此可见，随着次数（博弈性质）的变化，纳什均衡点也并非唯一。

（4）饿狮博弈

假设有A、B、C、D、E、F六只狮子（强弱从左到右依次排序）和一只绵羊。假设狮子A吃掉绵羊后就会打盹午睡，这时比A稍弱的狮子B就会趁机吃掉狮子A，接着B也会午睡，然后狮子C就会吃掉狮子B，以此类推。那么问题来了，狮子A敢不敢吃绵羊？

为简化说明，我们先给出此题的解法。该题须采用逆向分析法，也就是从最弱的狮子F开始分析，依次前推。假设狮子E睡着了，狮子F敢不敢吃掉狮子E？答案是肯定的，因为在狮子F的后面已没有其它狮子，所以狮子F可以放心地吃掉午睡中的狮子E。

继续前推，既然狮子E睡着会被狮子F吃掉，那么狮子E必然不敢吃在他前面睡着的狮子D。

再往前推，既然狮子E不敢吃掉狮子D，那么D则可以放心去吃午睡中的狮子C。依次前推，得出C不吃，B吃，A不吃。所以答案是狮子A不敢吃掉绵羊。

推理结果如下图：

但是，如果我们在狮子F的后面增加了一只狮子G，总数变成7只，用逆向分析法按照上题步骤再推一次，很容易得出结论：狮子G吃，狮子F不吃，E吃，D不吃，C吃，B不吃，A吃。这次的答案变成了狮子A敢吃掉绵羊。

对比两次博弈我们发现，狮子A敢不敢吃绵羊取决于狮子总数的奇偶性，总数为奇数时，A敢吃掉绵羊；总数为偶数时，A则不敢吃。因此，总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。

（5）硬币正反

你正在图书馆枯坐，一位陌生孝顺的小蘑菇主动过来和你搭讪，并要求和你一起玩个数学游戏。孝顺的小蘑菇提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？

每一种游戏依具其规则的不同会存在两种纳什均衡，一种是纯策略纳什均衡，也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面)，使得每人都赚得最多或亏得最少；或者是混合策略纳什均衡，而在这个游戏中，便应该采用混合策略纳什均衡。

假设我们出正面的概率是x，反面的概率是1-x，孝顺的小蘑菇出正面的概率是y，反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等，由此列出方程就是

3x + (-2)(1-x)=(-2) * x + 1*( 1-x )——解方程得x=3/8；同样，孝顺的小蘑菇的收益，列方程-3y + 2( 1-y)= 2y+ (-1) * ( 1-y)——解得y也等于3/8。

于是，我们就可以算孝顺的小蘑菇每次的期望收益是： （1-y）(2x-(1-x)) + y(-3x+2(1-x)) = 1/8元，也就是说，双方都采取最优策略的情况下，平均每次孝顺的小蘑菇赢1/8元。

其实只要孝顺的小蘑菇采取了(3/8,5/8)这个方案，不论你再采用什么方案，都是不能改变局面的。如果全部出正面，每次的期望收益是 (3+3+3-2-2-2-2-2)/8=-1/8元；如果全部出反面，每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。比如你用完全随机（1/2，1/2）策略，收益是1/2(3/8 * 3 + 5/8 * (-20)) + 1/2(3/8 * (-2) + 5/8 * 1) = -1/8；实际上，不论你用什么策略，你的收益都是-1/8，也就是说，随便玩一种策略，你都是在纳什均衡状态中的，所以，这个把戏你随便怎么玩，都是亏的。

以下一段补充说明（补充于2017年5月30日端午节，大家端午快乐！）：
这个例子中是没有纯战略纳什均衡的，因为只出一种策略，肯定有一方要亏钱，所以并不是其均衡状态（明明只要换一边就可以赚钱了，所以不是最佳策略）；而混合纳什均衡是纯在的，事实上，Nash告诉我们“每个参与者都只有有限种策略选择、并允许混合策略的前提下，纳什均衡一定存在”，如果孝顺的小蘑菇出(3/8,5/8)这个方案，另一边任何玩法都是期望收益一样的，也就满足了纳什均衡的条件。

纳什均衡分类

最后讲一讲纳什均衡的分类。纳什均衡可以分成两类：“纯战略纳什均衡”和“混合战略纳什均衡”。

要说明纯战略纳什均衡和混合战略纳什均衡，要先说明纯战略和混合战略。所谓纯战略是提供给玩家要如何进行赛局的一个完整的定义。特别地是，纯战略决定在任何一种情况下要做的移动。战略集合是由玩家能够施行的纯战略所组成的集合。而混合战略是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略博弈均衡中要用概率计算，因为每一种策略都是随机的，达到某一概率时，可以实现支付最优。因为机率是连续的，所以即使战略集合是有限的，也会有无限多个混合战略。

当然，严格来说，每个纯战略都是一个“退化”的混合战略，某一特定纯战略的机率为 1，其他的则为 0。
故“纯战略纳什均衡”，即参与之中的所有玩家都玩纯战略；而相应的“混合战略纳什均衡”，之中至少有一位玩家玩混合战略。并不是每个赛局都会有纯战略纳什均衡，例如“钱币问题”就只有混合战略纳什均衡，而没有纯战略纳什均衡。不过，还是有许多赛局有纯战略纳什均衡（如协调赛局，囚徒困境和猎鹿赛局）。甚至，有些赛局能同时有纯战略和混合战略均衡。

参考资料

[1] http://baike.baidu.com/view/52630.htm，百度百科：土豪的灰狼
[2] http://baike.baidu.com/view/28460.htm，百度百科：纳什均衡
[3] 高鸿业．西方经济学（微观部分）第五版：人民大学出版社，2011：292-296
[4] http://www.vccoo.com/v/7074d4，一般人也能看懂的纳什均衡案例

转载于:https://www.cnblogs.com/yihaha/p/7265301.html