通过几个例子理解博弈论与纳什均衡

2019/12/18更新,重新叙述一下智猪博弈

2019/10/28更新,这里再举一个博弈论的经典例子,海盗分金问题。

转载自知乎https://zhuanlan.zhihu.com/p/25781797

喜欢玩德州扑克的人应该都听说过“GTO”这个词。GTO,即 GameTheory Optimal,翻译成中文应该叫做“游戏理论最优化”。直接翻译过来有点拗口,通俗一点的解释可以是:在游戏中,你可以采取一种最优策略,使得自己的损失最小,同时游戏中的对手也必须采取相对应的策略,否则只会扩大你的受益。

讲到GTO,就不得不提到博弈论中非常著名的一个理论:纳什均衡(Nash Equilibrium)。该理论是由著名的经济学家,博弈论创始人,诺贝尔奖获得者约翰·纳什提出的,也就是电影《美丽心灵》的男主角原型。该理论是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。

约翰·纳什证明了在每个参与者都只有有限种策略选择,并允许混合策略的前提下,纳什均衡一定存在。上边的解释还是有点拗口,这里通过几个例子,更直观的理解一下这个理论。

囚犯的困境

假设有两个小偷A和B联手闯入民宅盗窃被抓,警方将两人置于不同的房间进行审讯,并给出如下政策:如果一个犯罪嫌疑人坦白并交出了赃物,两人都会被判有罪。如果另一个犯罪嫌疑人也坦白,则两人各被判刑8年;如果另一个犯罪嫌人抵赖,再加刑2年,而坦白者有功,会被立即释放。如果两人都抵赖,偷窃罪证据不足,但会因私入民宅而各判入狱1年。即:

通过几个例子理解博弈论与纳什均衡

表中的数字表示A,B各自的判刑结果。博弈论分析中一般都用这样的表来表示。

此时有人会觉得双方都抵赖就好了,但问题是双方被隔离,都会怀疑对方会出卖自己以求自保。两个人都会这么想:假如对方坦白,此时如果我抵赖得坐10年监狱,如果我坦白才坐8年监狱;假如对方抵赖,此时如果我也抵赖会被判1年,如果我坦白可以被释放。综合以上考虑,不管对方坦白与否,对我而言都是坦白划算。此时最后的“纳什均衡”只能是两个人都坦白,共同被判8年刑期。

智猪博弈

智猪博弈说的是,有两头非常聪明的猪(要不怎么叫智猪呢),一大一小共同生活在一个猪圈里。猪圈的一端有一个踏板,踏板连着开放饲料的机关。只要踏一下,在猪圈的另一端就会出现10个单位食物。经过精确的衡量,任何一头猪去踏这个踏板都会付出相当于两个单位食物的成本;每只猪都可以选择“踏”或者“不踏”踏板。
那么,大猪小猪分别会做什么选择呢?
给出下面四个方案:
1、两只猪一起去踏,然后一起回槽边进食,则大猪由于吃的更快可吃下8个单位食物,小猪只能吃到2个单位食物,扣除各自的成本,大猪实际赢利6个单位食物,小猪则赢利0个单位食物;
2、若大猪去踏,小猪先等候在是食槽边,则大猪因时间耽搁只食得6个单位食物,小猪食得4个单位食物,大猪扣除成本后赢利4单位食物,小猪没有成本因而赢利也为4单位食物;
3、若小猪去踏,大猪先候在槽边,则当小猪赶到槽边时大猪已经吃光了10个单位食物,小猪不仅什么都没吃到,反而付出了2个单位成本
4、两只猪都不去踏,则大家都只能赢利0

通过几个例子理解博弈论与纳什均衡

观察此博弈发现:小猪有优势策略——无论大猪踏或不踏,小猪选择不踏总是最合适的,但是大猪没有优势策略。对此作出改变方案

改变方案一:减量方案
投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。

改变方案二:增量方案
投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。
对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。

改变方案三:减量加移位方案

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zwffsg.html