1、第三章 博弈论 第一节 概述 一、博弈论( game theory) 研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题的理论。 从管理角度又称为“对策论”。 可划分为合作博弈和非合作博弈,其区别在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议。如果有,就是合作博弈;反之,则是非合作博弈。 博弈: 国家之间、企业之间、人与人之间 生活中的博弈: 打牌、下棋 宿舍打扫卫生 宿舍买电风扇 家庭装修 挤公共汽车 二、产生与发展 通常,人们将数学家冯 诺依曼( von Neumann)于 1928年提出的二人零和博弈的极小化极大定理作为博弈论奠基的标志。 1944年,数学家
2、 冯 诺依曼( von Neumann)和经济学家摩根斯坦恩( Morgenstern)合作发表了 博弈论和经济行为 一书,被认为是应用博弈论进行经济分析的开始。 50年代合作博弈发展到鼎盛期:纳什和夏普里提出“讨价还价”模型;吉利斯和夏普里提出“核”的概念。 50年代非合作博弈开始创立: 1950和 1951年,纳什发表了两篇关于非合作博弈的重要论文 n人博弈中的均衡点 、 非合作博弈 。 1950年,塔克定义了“囚徒困境”( prisoners dilemma) 。 60年代,泽尔腾将纳什均衡的概念引入了动态分析,提出“精炼纳什均衡”概念。 1967-1968年,海萨尼将不完全信息引入博弈
3、论的研究。此后,他们两人长期合作,发展了非合作博弈理论。 80年代,克瑞普斯和威尔逊于 1982年合作发表了关于动态不完全信息博弈的重要文章。 1994年诺贝尔经济学奖获得者: 1928年纳什出生于美国, 1950年获普林斯顿大学数学博士学位,其博士论文 非合作博弈 首次区分了合作博弈与非合作博弈,并且提出了非合作博弈的所谓纳什均衡概念。 1930年 泽尔滕出生于现属于波兰的德国城市, 1961年获法兰克福大学数学博士学位,曾先后任教于柏林自由大学、比勒菲尔特大学和波恩大学。其主要贡献是在博弈论中引入了动态分析。 1920年海萨尼 出生于匈牙利, 1947年获布达佩斯大学博士学位,后到美国,
4、1954年获斯坦福大学博士学位,曾先后任教于澳大利亚国立大学、加州伯克利分校。于 2000年去世。他的贡献是将不完全信息引入了博弈论的研究。 第二节 基本概念 一、组成要素: 局中人 ( players):指做决策的个体。每个局中人的目标都是通过选择行动来使自己的效用最大化。 信息 ( information)指局中人在博弈中的知识,特别是有关其他局中人(竞争者或对手)的特征和行动的知识。 策略 ( strategies)是局中人选择行动的规则,它告诉局中人在什么时候选择什么行动。 支付 ( payoff):指每个参与人从博弈中获得的效用水平。 均衡 ( equilibrium):指所有局中人
5、的最优战略组合或行动组合。或者,均衡 s*=( s1*, , sn*)指由博弈中的 n个局中人每人选取的最佳战略所组成的一个战略组合。 二、划分类型 1. 行动顺序 静态博弈 ( static game):博弈中局中人同时选择行动,或虽然不是同时行动但后行动者并不了解前行动者采取了什么具体行动。 动态博弈 ( dynamic game):指局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。 2. 信息结构 完全信息博弈 ( complete information):指局中人完全了解其他局中人的特征、战略空间及支付函数。 不完全信息博弈 ( incomplete informa
6、tion):指至少有一个局中人不完全了解其他局中人的收益或收益函数。 3. 合作博弈与非合作博弈 合作博弈( cooperative game):是以局中人整体的可能联合行动集合为基本要素。通俗地说,如果局中人能够达成有约束力的协议或合约,则该博弈称为合作博弈。合作博弈强调的是集体理性。 非合作博弈( non-cooperative game):是以单个局中人的可能行动集合为基本要素的博弈。通俗地说,如果局中人不能在博弈中达成有约束力的协议或合约,则称该博弈为非合作博弈。非合作博弈强调的是个体理性。 4. 零和博弈与非零和博弈 按照博弈的收益分配结果划分,博弈可以划分为零和博弈和非零和博弈。
7、零和博弈指在博弈中一组局中人所得到的支付(或收益)恰好是另一组局中人的损失。通俗地说,博弈结果总和为零的博弈称为零和博弈。 非零和博弈指所有局中人的支付(或收益)的代数和不为零。为正或为负。 基于信息结构和行动结构来划分博弈的结果: 博弈的类型及对应的均衡概念 行动顺序 静态结构 动态结构 信 息 (战略博弈) (扩展博弈) 完全信息静态博弈 完全信息动态博弈 完全信息结构 Nash均衡 子博弈精练 Nash均衡 Nash(1950,1951) Selten(1965) 不完全信息静态博弈 不完全信息动态博弈 不完全信息结构 贝叶斯 Nash均衡 精练贝叶斯 Nash均衡 Harsanyi(1
8、967-1968) Selten(1975)等 三、支付矩阵表示方法 双因素表示法: 指在两个局中人的博弈中,每一单元格都有两个数字 分别表示两个局中人的收益。 局中人 B 左 右 上 2, 1 0, 0 局中人 A 下 0, 0 1, 2 第三节 经典模型 博弈论的目的在于巧妙的策略 , 而不是解法 。 我们学习博弈论的目的 , 不是为了享受博弈分析的过程 , 而在于赢得更好的结局 。 博弈的思想既然来自现实生活 , 它就既可以高度抽象化地用数学工具来表述 , 也可以用日常事例来说明 , 并运用到生活中去 。 没有高深的数学知识 , 我们同样通过博弈论的学习成为生活中的策略高手 , 学习到最
9、适合的为人处世的方法 。 一、囚徒困境 自愿坐牢的嫌疑人 两个嫌疑犯作案后被警察抓住,被分别关在不同的房间里受审讯。警察知道两个人有罪,但缺乏足够的证据定罪,除非两个人当中至少有一个人坦白。 警察告诉每个人: 1、如果两个人都坦白,各判刑 5年; 2、如果两个人都不承认,每人判刑 1年; 3、两个人一人坦白一人抵赖,坦白者释放,抵赖者判刑 8年; 这样 , 每个嫌疑犯面临 4种可能后果: 释放 (自己坦白同伙抵赖 ); 判刑 1年 (两人都抵赖 ); 判刑 5年 (两人都坦白 ); 判刑 8年 (自己抵赖同伙坦白 )。 囚徒困境的支付矩阵囚犯 B 坦白 抵赖 囚犯 A 坦白 抵赖 -5, -5
10、 0, -8 -8, 0 -1, -1 对 A而言: 如 B坦白 , A坦白时的支付为 -5, 抵赖时的支付为 -8,因而坦白好; 如 B抵赖 , A坦白时的支付为 0, 抵赖时的支付为 -1,还是坦白好; 这样 , 坦白是 A的唯一最优策略 。 同样也是 B的唯一最优策略 。 此博弈的纳什均衡是(坦白,坦白)。 分析 应用 1:军备竞赛 20多年前 , 美 、 苏两国是两个超级大国 , 他们相互对垒都竞相增加各自的军费预算 。 假设他们有两种策略选择:扩军或裁军 。 双方选择的支付如下: 苏 联 扩 军 裁 军 扩 军 -2000, -2000 8000, - 美 国 裁 军 - , 800
11、0 0, 0 应用 2:公共事业 两个企业 ( u1, u2) 被问:是否同意建造一个新的下水管道以使地下水不被污染 。 假设建造下水管道需要投资 120万 。如同意各承担 50%, 下水管道对企业的价值分别是 80万 。 u 2 不同意 同 意 u 1 不同意 0 , 0 8 0 , - 40 同意 - 40 , 80 2 0 , 20 应用 3:价格战 生活中,我们经常会遇到各种各样的家电价格大战:彩电大战、冰箱大战、空调大战等等。这些大战的受益者是消费者。价格大战的结局也是一个“纳什均衡”,而且是厂家谁都没钱赚。 问题:价格战的囚徒困境现象可以改变吗? 囚徒困境的结论: 1)个体理性与集
12、体理性的不一致性; 2)表明制度安排的重要性; 3)在现实政治经济中,合作具有积极普遍的意义。 二、智猪博弈 多劳并不多得 猪圈里有大 、 小猪各一头 , 猪圈的一头有一个猪食槽 , 另一头有一个按钮 , 控制猪食供应 。 按一下按钮有 10个猪食供应 , 但谁按谁要付出 2个单位成本 。 ( 1) 若小猪按则大猪先到 , 大猪吃 9个单位 , 小猪只吃到 1个单位 。 ( 2) 若同时按则同时到 , 大猪吃 7个单位 , 小猪吃到 3个单位 。 ( 3)若大猪按则小猪先到,大猪吃 6个单位,小猪吃到 4个单位。 智猪博弈的支付矩阵 小猪 按 等待 大猪 按 等待 5, 1 4, 4 9, -
13、1 0, 0 分析 小猪的最优策略是:等待 。 因为 大猪按 , 小猪同时也按 , 得到 1, 而等待则得到 4。 大猪等待 , 小猪按 , 得到 -1, 而等待则得到 0。 给定小猪的最优策略是等待 , 大猪的最优策略只能是按 。 所以 , 此博弈的纳什均衡是 ( 按 , 等待 ) 。 智猪博弈表明:能者多劳,但多劳者未必多得。 对管理者的启示 在 “ 智猪博弈 ” 的模型中,小猪搭便车的现象是由于规则所导致。为使资源最有效配置,如何才能激励小猪和大猪去抢按按钮?其核心问题是每次落下食物数量和按钮与投食口之间的距离。 改变方案一:减量方案。投食量仅为原来的一半。结果是小猪和大猪都不去按。谁去
14、按就意味着为对方贡献食物。 改变方案二:增量方案。投食量为原来的两倍。结果是小猪和大猪谁想吃谁就去按,反正对方不会一次把食物吃完,都有足够的食物,所以竞争意识不强。 改变方案三:减量加移位方案。投食量仅为原来的一半,但将投食口移到按钮旁边。结果小猪和大猪都在拼命抢着按按钮。等待者不得食,而多劳者多得。此方案成本不高而收获最大,可以说是最佳方案。 三、斗鸡博弈 狭路相逢的策略 有两个人举着火棍从独木桥的两端走向中央准备火拼 。 每个人有两种策略:继续前进或退却 。 赢得 2分 , 主动退却 0分 , 败 -3分 。 有 3种情况发生: ( 1) 两个人都继续前进 , 则两败俱伤 。 ( 2) 一
15、方前进 , 一方后退 , 前进者赢 , 退下来丢面子 。 ( 3) 两人都退 , 都丢面子 。 斗鸡博弈的支付矩阵 B 进 退 有两个纳什均衡(进,退)或(退,进)。 斗鸡博弈说明:狭路相逢勇者胜。 A 进 退 -3, -3 2, 0 0, 2 0, 0 把对手变成朋友 自 20世纪 80年代起,苹果和微软就一直处于敌对状态,为争夺个人计算机市场展开激烈的竞争。 90年代中期,微软公司占领了约 90%的市场份额,而苹果公司举步维艰。而让所有人都大跌眼镜的是, 1997年,微软向苹果公司投资 1.5亿美元,把它从倒闭的边缘拉了回来。2000年,微软为苹果推出 Office2001。自此,微软与苹果真正实现双赢,合作伙伴关系进入了一个新的时代。 生活在纷繁复杂的社会中 , 难免会与人发生对立和冲突 。 在这些对手中 , 有的也许的确是蓄意阻挡你的前进道路 , 有的大多数是由于阴差阳错产生的误会 , 这时就不能讲究 “ 狭路相逢勇者胜 ” , 而应该调整自己的姿态 , 避免因为针尖麦芒而两败 俱伤 , 并且要 “ 一笑泯恩仇 ” , 化对手为朋友 , 找到一条让 双方共同前进的道路 。