1、博弈与决策 Game Theory and Decisions,第二章:完全信息静态博弈 Chapter II: Static Game of Complete Information 魏光兴 重庆交通大学管理学院 ,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,2,1、囚徒困境与占优均衡I,囚徒困境(Prisoners Dilemma) 来源:普林斯顿大学的塔克(tunker)教授杜撰的 故事梗概:两个小偷行窃未果被抓,隔离审讯。“坦白从宽,抗拒从严”:如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年 。坦白否
2、? 六个基本要素分别是什么? 基于收益矩阵(payoff matrix)的模型描述:,囚徒 A,坦白,抵赖,坦白,抵赖,囚徒 B,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,3,1、囚徒困境与占优均衡II,占优战略/优势策略/上策(dominant strategy) 无论其他局中人如何行动,总是(严格地)优于其他战略的战略,称为(严格)占优战略。而被(严格地)占优的战略称为(严格)劣战略。 博弈局中人一定会选择占优战略,一定不会选择劣战略。 纳什均衡 各博弈方都不再改变自己的行为时的战略组合,因为即使改变也不能提高自己的收益。 占优均衡 其中各战略都是各局中人的占优战略的战略
3、组合 占优均衡并不常见,因为很多时候不存在占优战略,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,4,1、囚徒困境与占优均衡III,思考 攻守同盟是否可行? 背后哲理 个体理性与集体理性之间的矛盾:实现集体利益时才能实现个人利益,单纯追逐个人利益往往不能实现。 看不见的手 亚当斯密国富论中无形之手就是自利的个体理性:我们的晚餐不是来自屠夫、酿酒的商人或面包师傅的仁慈之心,而是因为他们对自己的利益特别关注每个人都会尽其所能,运用自己的资本争取最大的利益,一般而言,他不会有意图为公众服务,也不自知对社会有什么贡献,他关心的仅仅是自己的安全、自己的利益,但如此一来,他就好象被一只无形的
4、手引领,在不知不觉中对社会改进尽力而为,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,5,1、囚徒困境与占优均衡IV,现实中的囚徒困境 屡见不鲜的价格战 铺天盖地的广告战 曾经威胁世界甚至整个人类的军备竞赛 公共资源过度开采/公共品供给短缺 大学扩招、研究生扩招、大学贷款基建 备受批评却日益严重的应试教育 微妙的三角关系 年年都有的评优评先活动 各种资格考试广泛盛行,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,6,1、囚徒困境与占优均衡V,如何走出囚徒困境? 可信的(由第三方实施的、据说黑社会中存在的)报复 历史上的 “人质”或“通婚”方案 军队中的(有些企业试图
5、培养的)“忠诚”文化 长期重复关系,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,7,1、囚徒困境与占优均衡VI,委托-代理(principal-agent)关系中被设计的囚徒困境 委托-代理关系 通常的含义是委托人请代理人代理某件事情。其中的关键问题是二者利益不一致,并且委托人不知道代理人是否努力工作(称为信息不对称),甚至委托人没有办法监督代理人的工作。为此,需要设计一种制度(system),使代理人在追求自己利益的同时也最大化委托人的利益,如何设计这样的制度就是信息经济学(information economics)研究的问题。由于在经济学中,制度与合同/合约/契约(con
6、tract)、机制(mechanism) 等词具有相同含义,信息经济学又称为机制设计理论、合同/合约/契约理论。又由于是研究委托代理关系,也称为委托代理理论。其实质是激励代理人按照委托人的利益行事,还称为激励理论(Incentive Theory),注意与管理学中激励理论差异。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,8,1、囚徒困境与占优均衡VII,委托-代理(principal-agent)关系中被设计的囚徒困境 预防审计合谋双头审计 经理与注册会计师之间可能合谋,隐瞒不良信息。 股东解决这一问题的一种做法是双头审计,请两位会计师进行审计,扣发给隐瞒者的部分报酬,而给坚
7、持如实报告问题的注册会计师以更多的报酬。,注册会计师 A,隐瞒,实报,隐瞒,实报,注册会计师 B,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,9,1、囚徒困境与占优均衡VIII,委托-代理(principal-agent)关系中被设计的囚徒困境 压低供应商价格 假设:两供应商成本都为6元/件,报价都为10元/件。 策略:如果二者报价都为10元/件或8.5元/件,则从每家订购50件;若一家报价10元/件而另一家报价8.5元/件,则从价低者订购100件。,供应商 A,8.5,10,8.5,10,供应商 B,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,10,1、囚徒困
8、境与占优均衡IX,回顾:博弈论、互动局势与名人名言 博弈论 研究互动局势下的最优行为决策,必须考虑自己的行为对他人利益的影响,以及他人对自己行为的反应。 互动局势 自己的行为会影响他人利益,他人行为也会影响自己利益;在重复博弈/长期关系中,合作和报复都有可能。 名人名言 莫列尔:应当随时考虑别人的利益,条件是不这样做自己的利益就是受到损害。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,11,2、智猪博弈I,预言故事:智猪博弈(Boxed Pigs) 一头大猪和一只小猪生活在同一猪圈里,共用一食槽。食槽的一端有一个开关,猪用嘴一拱,食槽的另一端会掉下包子。假定按一下会掉下10个包
9、子,而跑去按开关的猪会耗费3个包子的能量。如果小猪按开关,大猪先吃,等小猪按完跑过来时,大猪会吃掉8个包子,小猪只能吃到2个;如果大猪先按开关,按完后跑过来,小猪会吃掉4个包子,大猪可以吃到6个;如果都不去按开关,就会被一起饿死。 模型描述,大猪,按,等,按,等,小猪,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,12,2、智猪博弈II,重复剔除严格劣战略 Iterated Elimination of Strictly Dominated Strategies 在求解纳什均衡过程中,可以剔除局中人的严格劣战略以简化博弈,因为严格劣战略肯定不会被实施。 注意:一定是剔除“严格”劣
10、战略,因为如果剔除的劣战略不是严格的,那么有可能剔除纳什均衡。 如果重复剔除严格劣战略之后的战略组合是唯一的,那就是纳什均衡。 但是,并不是所有纳什均衡都可以通过重复剔除严格劣战略得到。,大猪,按,等,按,等,小猪,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,13,2、智猪博弈III,智猪博弈背后的哲理 小猪角度:自己不能努力,即使努力劳动成果也会被大猪侵占,所以最优选择是等待,坐享大猪的劳动成果,这称为搭便车(free-riding)。但是,因为如此,小猪没有权利,很多时候处于任人宰割的地位。 大猪角度:自己必须努力工作,不得不让小猪分享部分劳动成果。但也正因为如此,大猪拥有
11、主导权,而这种权利可以使大猪在利益分配中获得更多的利益。,练习:用重复剔除严格劣战略求以下博弈的纳什均衡,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,14,2、智猪博弈IV,生活中的智猪博弈 制度改革 小股东与大股东 广告搭便车 技术创新搭便车 能者多劳 聚餐AA制 老师优先选用自己编写的教材 领导配高档轿车、装修豪华办公室,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,15,2、智猪博弈V,如何解决这些问题? 基本思路是界定产权,明确各方的责任、权力和利益。 通过界定产权,可以防止搭便车。 通过明确责权利,可以削弱一方在利益分配中的独导地位。 这都要通过法律或制
12、度来实施。 在某些领域,这一问题是没有办法解决的。所以 莫勒尔说:尽管大家同乘一条船,可一些是划船,另一些人只是坐船。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,16,3、最优反应与画线法I,网络名句 我尊重你是因为你尊重我,你尊重我是因为我尊重你; 我喜欢你是因为你喜欢我,你喜欢我是因为我喜欢你; 我爱你是因为你爱我,你爱我是因为我爱你。 麦琪的礼物 小说故事:妻子麦琪有一头长发,却没有梳子。丈夫有一只怀表,却没有表链。麦琪生日那天,麦琪卖掉了长发为丈夫买了一条表链,吉姆卖掉怀表为妻子买了一把梳子。 模型描述,吉姆,卖表,不卖,剪发,不剪,麦琪,魏光兴重庆交通大学,2019
13、/3/26,魏光兴重庆交通大学,17,3、最优反应与画线法II,最优反应 给定对方的战略选择,我方的最优战略 画线法 在最优反应战略对应的数字上画线 如果某战略组合都画上了线,那就是纳什均衡。此时,各方的行为选择都是给定对方战略下的最优选择,每一方都不能通过单方面的改变行为选择来提高自己的收益。,吉姆,卖表,不卖,剪发,不剪,麦琪,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,18,3、最优反应与画线法III,练习:用画线法求解下列博弈的纳什均衡 性别战博弈斗鸡博弈,妻子,韩剧,足球,韩剧,足球,丈夫,公鸡2,后退,进攻,后退,进攻,公鸡1,魏光兴重庆交通大学,2019/3/26
14、,魏光兴重庆交通大学,19,3、最优反应与画线法IV,练习:用画线法求解下列博弈的纳什均衡 复杂例子协调博弈,C2,R1,R2,C1,C3,R3,左,右,左,右,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,20,4、多重均衡与协调I,多重均衡的协调 很多博弈具有多个纳什均衡,比如以上讲到的麦琪的礼物、性别战、斗鸡博弈与协调博弈等,称为多重均衡。 在某些具有多重均衡的博弈中,各个博弈方偏好于不同的均衡结果,如麦琪的礼物、性别战和斗鸡博弈;而在另一些具有多重均衡的博弈中,各个博弈方偏好于同一个均衡结果,如协调博弈。 那么,博弈方如何使自己偏好的均衡称为实际的均衡结果呢?这就是多重均
15、衡的协调问题。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,21,4、多重均衡与协调II,多重均衡的协调 权威方,比如性别战博弈中,许多家庭习惯于听从某一方的安排,形成了事实上的权威方。 树立非理性形象,比如在斗鸡博弈或性别战博弈中,以非理性闻名的一方往往会获得胜利。 协商,比如吉姆可以事先给麦琪发条短信,告诉她卖了表给她买了梳子。 相关均衡,比如性别战博弈中双方可以通过抛硬币来决定,现实中交通管制还广泛实施的单双号通行。 聚点均衡,人们会选择习惯的行为,习惯就是聚点。 帕累托占优均衡,如协调博弈。 风险占优均衡,如鹿-兔博弈。,魏光兴重庆交通大学,2019/3/26,魏光兴重
16、庆交通大学,22,5、博弈与纳什均衡的数理描述,博弈(game) 博弈方 局中人 的第 项战略表示为 ,构成其战略空间 局中人 的收益表示为 ,为各局中人所选择战略的函数 博弈表示为 纳什均衡(NE, Nash Equilibrium) 如果对任意 ,均有 ,那么称战略组合 为博弈G的一个纳什均衡。 也就是说,给定其他人的战略选择,任意局中人都实现了最大收益,或者不能通过改变自己的战略提高收益。 即,在纳什均衡中,每一个局中人都不能单方面改变自己的战略来提高收益,从而每一个人都不会再改变战略,是一个相对静止的状态因此称为均衡。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,23,
17、6、混合战略均衡I,猜硬币博弈 两人玩游戏,一人A盖住硬币,另一人B猜哪一面朝上,输赢一块钱。 类似的例子还有划拳、敲棒棒、剪刀石头布、田忌赛马、乒乓球团体赛、战争。,局中人B,国徽,数字,国徽,数字,局中人A,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,24,6、混合战略均衡II,纯战略与纯战略纳什均衡 纯战略:肯定会(以100%的概率)被选择的战略。 纯战略纳什均衡:各个局中人都选择纯战略的纳什均衡。 混合战略与混合战略纳什均衡 混合战略:以一定的概率分布选择某几个行动的战略 数理描述:局中人 的纯战略空间为 ,其一个混合战略表示为分别以概率 选择实施对应的纯战略。 混合战
18、略纳什均衡:由局中人的混合战略构成的纳什均衡。 显然,纯战略纳什均衡是混合战略纳什均衡的特殊情况。 下文的战略指混合战略,纳什均衡指混合战略纳什均衡。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,25,6、混合战略均衡III,混合战略纳什均衡的求解方法 混合战略的三个原则 严格劣战略肯定不会被选择实施 选择实施非严格劣战略具有随机性 均衡时,博弈各方选择任意一个纯战略会得到相同的收益 混合战略纳什均衡满足的条件 任意局中人随机选择实施自己纯战略的概率分布使对方选择其每一个纯战略都会得到相同的收益 概率分布满足归一化条件 具体求解方法 剔除严格劣战略 设各个局中人的概率分布 根据
19、以上两条件列方程解未知数,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,26,6、混合战略均衡IV,混合战略纳什均衡的求解方法 例子,策略 得益 博弈方1 (0.8,0.2) 2.6 博弈方2 (0.8,0.2) 2.6,博弈方1的混合策略,博弈方2的混合策略,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,27,6、混合战略均衡V,混合战略纳什均衡的求解方法 练习 求以上麦琪的礼物、性别战、斗鸡博弈、协调博弈的混合战略纳什均衡。 求田忌赛马的纳什均衡以及各博弈方的期望收益。,3,-3,1,-1,1,-1,1,-1,-1,1,1,-1,1,-1,3,-3,1,-1,1
20、,-1,1,-1,-1,1,1,-1,-1,1,3,-3,1,-1,1,-1,1,-1,-1,1,1,-1,1,-1,3,-3,1,-1,1,-1,1,-1,1,-1,1,-1,-1,1,3,-3,1,-1,1,-1,1,-1,-1,1,1,-1,1,-1,3,-3,上中下,上中下,上中下,上中下,上中下,上中下,上 中 下,上 中 下,上 中 下,上 中 下,上 中 下,上 中 下,田 忌,齐 威 王,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,28,6、混合战略均衡VI,混合战略纳什均衡的两种解释 重复博弈中各种均衡结果出现的概率分布 偏好不同类型局中人所占比例的概率分布
21、生活中的随机性与多元化 虽然我们很多时候讨厌随机性,但是正因为随机性的广泛存在我们的生活才丰富多彩。 多元化是社会稳定发展的一个重要前提条件,古今中外的无数事实证明了这一点。,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,29,6、混合战略均衡VII,孙子兵法中的混合战略与随机性 攻而必取者,攻其所不守也;守而必固者,守其所必攻也。故善攻者,敌不知其所守;善守者,敌不知其所攻。微乎微乎,至于无形;神乎神乎,至于无声。故能为敌之司命。 物理学中的混合战略与随机性 吕艾勒 如果你与他人合作,通常还是让行为有规律可循会比较好一些。但在有竞争的情况下,最佳策略通常都涉及随机的不可预测的行
22、为。 波尔 从“聪明的驴”到量子理论和测不准理论 爱因斯坦 从“我在哪里”到相对论,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,30,7、纳什均衡的存在性I,存在性定理 纳什(Nash, 1950):任何博弈都至少存在一个纳什均衡,只不过可能是混合战略纳什均衡。 奇数定理 威尔逊(Wilson, 1951):几乎所有博弈都有奇数个纳什均衡。 求解步骤总结 重复剔除严格劣战略化简博弈 求纯战略纳什均衡 求混合战略纳什均衡,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,31,7、纳什均衡的存在性II,练习,上,下,左,右,C,T,M,L,R,B,魏光兴重庆交通大学,2
23、019/3/26,魏光兴重庆交通大学,32,8、激励的悖论I,TG(小偷与守卫)博弈 故事模型泽尔滕1996年3月在上海演讲时讲的故事 故事:小偷欲偷窃守卫看守的仓库。如果守卫睡觉,可偷得价值为V的财物;如果守卫没有睡觉,将被抓住,将被罚款P。守卫睡觉而财物没有被偷,将获得正效用S;守卫睡觉而财物被偷,将被罚款D。 模型:,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,33,8、激励的悖论II,TG(小偷与守卫)博弈 小偷的混合战略 加重对守卫的处罚,并不是使守卫更尽职,而是会降低盗窃发生的概率 守卫的混合战略 加重对小偷的处罚,并不能降低盗窃发生率,而会使守卫更多的偷懒,魏光兴
24、重庆交通大学,2019/3/26,魏光兴重庆交通大学,34,9、海滩占位模型,基本模型 海滩上有两位卖太阳镜的商贩,他们应该如何占位? 扩展模型 练习1 如果是湖边有两位卖太阳镜的商贩,他们应该如何占位? 练习2 海滩边的三位商贩该如何占位?多位呢? 练习3 湖边的三位商贩该如何占位?多位呢?,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,35,10、多人协调I,新闻故事 一位妇女在公共场合被杀害,几十人围观,却没人报警,为什么?,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,36,10、多人协调II,博弈分析 设有N个人,从帮助中可以获益B,报警要承担成本C,并且有BC 只有一个人的话,其肯定会报警 有N个人时,显然每个人都不会实施纯战略,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,37,10、多人协调III,魏光兴重庆交通大学,2019/3/26,魏光兴重庆交通大学,38,10、多人协调IV,