收藏 分享(赏)

完全信息静态博弈及其纳什均衡解.docx

上传人:weiwoduzun 文档编号:5705751 上传时间:2019-03-13 格式:DOCX 页数:9 大小:150.04KB
下载 相关 举报
完全信息静态博弈及其纳什均衡解.docx_第1页
第1页 / 共9页
完全信息静态博弈及其纳什均衡解.docx_第2页
第2页 / 共9页
完全信息静态博弈及其纳什均衡解.docx_第3页
第3页 / 共9页
完全信息静态博弈及其纳什均衡解.docx_第4页
第4页 / 共9页
完全信息静态博弈及其纳什均衡解.docx_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、1第四章 完全信息动态博弈及其均衡解1.完全且完美信息动态博弈完全信息博弈指的是参与者的收益是共同知识。完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。例 4.1 我们来考虑这样一个动态博弈: 假定甲在开采一个价值 4 万元的金矿时需要1 万元资金,乙有 1 万元资金。甲向乙借钱来开金矿。在这个

2、博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)乙得到2 万元的金子,同时收回自己的 1 万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。如果乙借钱给甲的话,那么博弈进入第二个阶段。在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1 万元为投资成本。JP3然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。参见图 1。乙借 不借甲 分 不分 (0,1)乙 乙

3、(2,3) 打官司 不打官司 (1,2) (5,0)图 1. 借钱博弈的博弈树2.逆向归纳法与子博弈纳什均衡解逆向归纳法(Backward induction)又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。在动态博弈中逆向归纳法能够进行的前提:参与人是理性的任何一步参与人都选甲乙2择最优策略;理性是公共知识参与人选择最优策略是其他人所能够预测的。在完全且完美信息动态博弈中逆向归纳法能够求得子博弈精炼纳什解。乙借 不借甲 分 不分 (0,1)乙 乙(2,3) 打官司

4、不打官司 (1,2) (5,0)图 2. 借钱博弈的逆向归纳法的求解过程在例 4.1 中这样一个动态博弈,用逆向归纳法,我们就可以推知,如果甲做出“不分”的选择,那么乙一定会选择“打”官司。因为对于乙而言,打官司的收益为 1,不打官司的收益是 0,所以,作为一个理性人,乙一定会选择打官司。而如果甲知道在“不分”的情况下乙必定选择“打官司” ,那么甲就一定会选择“分”一半的金子给乙,因为对甲而言,“分”的收益是 2, “不分”的收益是 0。所以,甲的承诺是可置信的。而对于乙来说,他会选择“借” ,因为“借”的收益是 3, “不借”的收益是 1。因此,该博弈最终的子博弈精炼纳什均衡点就是(2,3)

5、。例 4.2.斯坦克尔伯模型。两个厂商垄断某个市场,其中厂商 1 处于支配地位,它先行动,然后从属企业 2 后行动。假定市场需求函数为 p=a-Q。厂商的单位产品的成本 c。这些是企业 1 和 2 的公共知识。问:厂商 1 和 2 是如何决定的它们的生产产量的。假定厂商 1 和 2 所决定的产量分别为 q1,q2。我们用逆向归纳法来求解。企业 2 后行动,对于企业 1 的任何行动,即任意给定的产量,企业 2 确定产量以使利润最大,即使 L2=p q2-c q2最大。假定企业 1 决定的产量为 q1,因为:L 2=p q2-c q2=(a-q 1-q2) q2-c q2 由 dL2/dq2=0:

6、q1-2q2=a-c (1)甲乙3即:q 2=(q1-a+c)/2企业 1 先行动,它能够预知企业 2 的最优化行为,即在它的最优产量 q1给定的情况下,企业将按照 q2=(q1-a+c)/2 进行决策。这样,企业的利润函数为:L 1=p q1-c q1=(a- q1-q2) q1-c q1=(a-q 1-q2) q1-c q1而 q2是 q1如下的函数: q2=(q1-a+c)/2由 dL1/dq1=0:q1*=(a-c)/2于是,q2*=(a-c)/4因此,((a-c)/2,(a-c)/4)为逆向归纳法解。该解被称为子博弈精炼纳什均衡解。此时总产量为 q2=3(a-c)/4,价格为(a+3

7、c)/4企业 1 的利润 L1=(a-c)2/8企业 2 的利润为 L2=(a-c)2/16请读者与古诺均衡解进行比较。3.动 态 博 弈 中 的 威 胁 与 承 诺为 了 实 现 最 大 利 益 , 使 博 弈 在 博 弈 参 与 人 所 希 望 的 策 略 组 合 上 实 现 , 在 他 人 作出 行 动 之 前 的 每 一 步 参 与 人 都 会 向 对 方 可 能 做 出 某 种 威 胁 或 承 诺 , 希 望 对 方 做 出 或 者 不做 出 某 个 行 动 。 而 通 过 逆 向 归 纳 法 我 们 能 够 区 别 动 态 博 弈 中 威 胁 或 承 诺 是 否 可 信 。例 4.

8、1: 甲 向 乙 承 诺 : 借 钱 给 我 , 我 赚 钱 后 将 分 给 你 。 甲 的 承 诺 是 可 信 的 。乙 威 胁 甲 : 若 你 不 分 给 我 , 我 将 起 诉 你 。 乙 的 威 胁 也 是 可 信 的 。之 所 以 发 生 威 胁 与 承 诺 的 言 语 现 象 , 是 因 为 轮 到 他 人 行 动 的 时 候 , 参 与 人 只 能 通 过言 语 而 影 响 他 人 的 行 动 从 而 实 现 自 己 希 望 的 结 果 。 甲 之 所 以 承 诺 , 是 因 为 他 希 望 乙能 够 “借 钱 ”给 他 。 同 样 , 而 乙 之 所 以 进 行 威 胁 , 是

9、 因 为 他 借 钱 之 后 , 希 望 甲 能 够连 本 带 利 将 钱 给 乙 。当 然 , 在 博 弈 论 中 因 为 参 与 人 是 理 性 人 , 威 胁 与 承 诺 是 否 可 置 信 能 够 被 确 认 。 这 样任 何 威 胁 与 承 诺 都 是 没 有 意 义 的 : 若 是 不 可 置 信 , 它 是 公 共 知 识 , 又 何 必 做 这 样 的 威 胁或 承 诺 ; 若 是 可 置 信 的 , 因 为 该 博 弈 是 完 全 且 完 美 信 息 博 弈 , 做 出 这 样 的 威 胁 与 承 诺也 是 无 益 的 。但 是 在 实 际 生 活 中 , 做 出 这 样 的

10、 威 胁 与 承 诺 是 有 意 义 的 , 因 为 , 人 们 不 一 定 认 为 对方 是 完 全 理 性 人 , 而 认 为 会 发 生 某 种 “偏 离 ”: 或 者 会 受 言 语 的 影 响 , 而 “忘 记 ”应 该 按 照 计 算 的 行 动 进 行 , 或 者 相 信 了 对 方 的 承 诺 或 威 胁 而 改 变 了 原 来 的 行 动 选 择 ; 等等 。4.理性的困境:蜈蚣博弈与最后通牒博弈4逆 向 归 纳 法 是 从 动 态 博 弈 的 最 后 一 步 往 回 推 , 以 求 解 动 态 博 弈 的 均 衡 结 果 。 它 是 完全 归 纳 推 理 , 其 推 理 是

11、 演 绎 的 , 即 结 论 是 必 然 的 。 逆 向 归 纳 法 在 逻 辑 上 是 严 密 的 , 然而 它 存 在 着 “困 境 ”。逆向归纳法的逻辑严密性毋庸置疑。然而,当我们分析一个特殊的博弈蜈蚣博弈的时候,一个违背直觉的悖论出现了,这个悖论被认为是对逆向归纳法的挑战。蜈蚣博弈(centipede game)为罗森塔尔(R.Rosenthal)在 1981 年提出,我们这里采取的是奥曼(Aumann,1998)论文中的形式 1。 安娜 鲍伯 安娜 鲍伯 安娜 鲍伯 2n+22n+12 1 4 3 2n 2 n-11 4 3 6 2n-1 2 n+2图 8-2 蜈蚣博弈这个博弈有两个

12、参与人,安娜和鲍伯。该博弈从安娜开始,她有两个策略“合作”和“不合作” ,若她选择“不合作” ,博弈即刻终止,安娜得到 2,鲍伯得到 1;若她选择“合作” ,那么博弈继续进行,由鲍伯开始选择。鲍伯同样有“合作”和“不合作”两种策略。在这第二轮选择中,若鲍伯选择“不合作” ,博弈终止,选择“合作” ,博弈继续进行在这个博弈最后一轮,即第 2n 轮,若鲍伯选择“不合作” ,他所得 2n+1,安娜得 2n-1;若他选择“合作” ,鲍伯得 2n+1 安娜得 2n+2。因这个博弈树形状像蜈蚣,因而被称为蜈蚣博弈。在这里我们假定了,总的步数 2n 是一个双方都知道的有限数。严格地说,我们假定了,该博弈的总

13、步数 2n 为双方的公共知识(common knowledge) 。我们用逆向归纳法来分析这个博弈的结果:在最后一步,鲍伯在“合作”与“不合作”中进行选择时,因为“不合作”带给他的好处是 2n+2,而“合作”的好处是 2n+1,选择“不合作”的好处大于“合作”的好处,鲍伯应当选择“不合作” 。在倒数第二步,安娜这样想,选择“不合作”的好处是 2n;而选择“合作” ,在下一步鲍伯肯定会选择“不合作” ,此时她的好处将是 2n-1,因此在这倒数第二步安娜的理性选择“不合作”通过这样的分析,在这个博弈的第一步安娜的理性的选择是“不合作” 。这样,这个博弈的结果是,在博弈的第一步安娜选择“不合作” ,

14、博弈即终止。这一点构成蜈蚣博弈的完美纳什均衡点。在这个点上,安娜得到支付 2,而鲍伯得到支付 1。这样的结果是反直觉的:最大化自己支付的理性人其所得是不合理的。从这个博弈树来看,若他们均选择“合作” ,双方的支付将会很高。但根据逆向归纳法,这个结果达不到。在这个博弈中,每个人考虑到未来他人不合作,自己先采取不合作。因在最后一步理性的参与人必定采取不合作,每个人的考虑是有逻辑基础的。于是,一个违反直觉的糟糕结果便出现了。这便是动态不合作。对于蜈蚣博弈的这个逆向归纳法解,博弈论专家中存在赞成和反对两种观点。著名的博弈论专家奥曼(R.J. Aumann)认为,如果“策略人是理性的”是双方的公共知识,

15、逆向归纳法的解必然要达到。英国伦敦经济学院的宾谟(K.Binmore)教授则认为,在蜈蚣博弈的开始存在混合策略1 Aumann, R.J. Note on the centipede GameJ. Games and Economic Behavior,1998, vol 23,pp97-105.5的可能,即在博弈的开始安娜有采取“合作”的非零概率,而轮到鲍伯,他同样有采取“合作”策略的非零概率。因此,在宾谟看来,该博弈终止于第一步不是必然的。 2本人认为,在最后一步鲍伯合作的概率必然为 0,逆推到第一步,安娜的合作概率也必然为 0。这样,宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解

16、是行不通的。逆向归纳法悖论依然存在。最后通牒博弈。参与人 1 和 2 分一笔钱,如 100 元,1 提出分配方案,2 表决。如果参与人 1 所提出的分配方案得到参与人 2 的同意,就按照该分配方案分配;如果参与者 2 拒绝,双方都将一无所获。逆向归纳法解:6.完全非完美信息动态博弈博弈的扩展式表达囚徒 1合作 不合作囚徒 2 囚徒 2合作 不合作 合作 不合作(3,3)(4,1)(1,4)(2,2)6.子博弈纳什均衡解与进化稳定策略在博弈论、行为生态学及演化心理学中,演化稳定策略 ESS 是一个这样的策略,一旦它被给定环境中的参与人群体采用,它不能被任何其他可能的策略所侵略。一个 ESS 是纳

17、什均衡的精炼。它是演化稳定的纳什均衡:一旦它在一个种群中得到确认,自然选择本身足以放防止变异的可能策略侵略成功。演化稳定策略在博弈论证是一个中心概念,它由 John Maynard Smith 和 George R. Price 在 1973 首先给出,并被用于人类学、演化心理学、哲学和政治科学之中。进化稳定策略依赖于侵略的概念。一个 X-策略参与人的群体被 Y 策略的参与人所造访。如果新的参与人使用 Y 策略比 X-策略的参与人得分更高,他被认为是侵略的。假定参与人能够选额和变换策略,这会导致原来的种群开始走向Y 策略。一个策略 X 是进化稳定的,如果没有策略 Y 能够侵略到它。也就是是,采

18、取新策略的物种来到 X-策略的种群平均来说将不会获得比 X 策略的参与人更好的收益。 Maynard 2 Binmore,K.A note on Backward Induction. Games and Economic Behavior,1996,vol 17,pp138-146.6Smith 与 Price1 给出了 ESS 策略的条件:一个策略 S 是 ESS: for all T S,或者E(S,S) E(T,S),或者 E(S,S) = E(T,S) 且 E(S,T) E(T,T)。纳什均衡与 ESS 的区别。在囚徒困境中是同一的。在“伤害邻居”的博弈中,(A,A)(B,B)都是纳

19、什均衡,但只有是一个 ESS(强纳什均衡)。A 则不是,因此 B 能够中性地侵略到 A 策略家的群体之中并占优势(predominate),因为 B 对抗 B 得分高于 A 对抗 B 对抗 B 的得分。C DC 3, 3 1, 4D 4, 1 2, 2囚徒困境A BA 2, 2 1, 2B 2, 1 2, 2伤害邻居在鹰鸽博弈中混合策略为一个 ESS。7.现实的动态博弈解读谢林的核武器理论。黑格尔:存在就是合理的。拓展 均衡解的扩展1.纳什均衡作为博弈预测的局限博弈论所研究的模型是现实的抽象。博弈论专家研究博弈期目的是为了预测,预测博弈参与人的策略选择及博弈结果。然而,当一个博弈包含不止一个纳

20、什均衡时,我们往往无法对之预测。为了解决这个问题,博弈论专家坐了许多尝试。2.谢林的聚点均衡焦点效应。在一个具有多重均的博弈中,某些事情使得一个博弈的参与人将注意力集中到一个均衡,使他们预期并实现这个均衡,这便是谢林所说的焦点效应。一个焦点均衡(focal equilibrium)就是一个具有某种使它显著地区别于所有其他均衡之性质的均衡。焦点又称为谢林点(Schelling point) ,这一概念最早由诺贝尔奖获得者谢林于 1960年在冲突的策略一书中提出:“人们如果得知别人也正试图做出和自己同样的行为时,常常能使他们的意图或期望达成一致。大多数情况或许每一种情况都能为此种博弈参7与人的合作

21、提供一些线索,为每个人的期望提供聚点 (focal point) ,其中每个人的期望是别人期望他期望被期望去做的事。 ”3也就是说,聚点是在协调博弈中博弈参与人通过相互期望所做出的共同选择形成的那个均衡点,它显示出了博弈中人们在没有沟通的情况下的共同选择倾向。芬斯特(Maier Fenster,1995)等人给出了一个明确的定义:给定一个问题和可能解的集合,参与人必须从解集合中选择一个,聚点就是参与人所选的最突出的那个解。 4谢林曾经有过这样的实验:“请选择下列数字中的一个,如果你们的选择相同,你们都将获胜。 ”7 100 13 261 99 555实验结果是在 41 人中 37 人选择了前三

22、项,7 略微领先于 100,13 位于第三位。 5可以看出,在这三项中,选择人数按数字排列的位置呈递降趋势。在谢林的实验中,聚点在选择第一个数上形成,协调博弈的结果与被选择对象呈现的次序有关。 “如果问到在所有正数当中哪个是最明显独特的,或者什么样的选择规则将导致明确结果,人们将会受到这种事实的强烈影响:即最普遍的选择是第一个或最小的那个正数。 ”6谢林进行的其他一系列实验也验证了这种“位置优先性”:在“正面”和“反面”二者之间,聚点在选择“正面”形成;在十六个方块列成的矩阵之间,聚点在选择第一个方块时形成。 7从谢林的实验可以看出,在无差异的选择对象之间,被试往往倾向于选择位置处于第一个的对

23、象。这似乎暗示着,人们可以利用被选择对象呈现的次序来控制选择的结果。如果这是唯一的结论,那么这在具体的运用中,会出现许多令人沮丧的结果。比如,在选举时,人们可以利用排名的先后来进行某种暗示。然而,令人欣喜的是,我们的实验结果与之完全不同,从附表 3 可以看出,聚点偏离了第一个数的位置,在选择位于第三的数字上形成。聚点发生了变迁!在这里,聚点的形成与位置无关,也就是说,博弈的结果不再与数字呈现的次序有关。对于协调博弈的结果,谢林认为很大程度上取决于双方的直觉而不是逻辑思维推理,或许依靠来自双方对相似事物之间的类比经验、先例、偶然巧遇、对称性、审美观或几何原理、诡辩推理,以及当事人的自身条件和对彼

24、此情况的了解。 8巴卡拉克(Bacharach), 萨登(Sugden) 和 詹森(Janssen)等人也持有类似的观点,他们认为,在很多情况下,聚点来自于直觉。 9然而,从我们的实验结果看来,人们的选择并没有排除逻辑思维推理。3. 焦点均衡的一个实验在群体生活中,许多行动可以通过约定(convention)来达到一致。当一个群体中的每个人遵守某些原则,从而使其他群体中的每个人也遵守这些原则时,就出现了约定。 10在3 T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 57.4 M.

25、Fenster, S. Kraus and J. S. Rosenschein, Coordination without Communication: Experimental Validation of Focal Point Techniques . AAAI. 1995, pp:102.5 T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 56.6 T. C. Schelling, The Strategy of Conflict . Harvard University Pr

26、ess, 1960, pp: 94.7 T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 56.8 T. C. Schelling, The Strategy of Conflict . Harvard University Press, 1960, pp: 57.9 A. Casaius, Focal Points in Framed Strategic Forms . Games and Economic Behavior, Volume 32, Issue 2, 2000, pp

27、: 263.10 G. Harman, Convention. The Nature of Morality, New York: Oxford University Press, 1977, pp: 8协调博弈中,如果有约定,某些行动规则便成为公共知识,协调博弈的难题就迎刃而解了。这里所指的公共知识(common knowledge) ,是指对于一个命题,某个群体中的每个人都知道它,每个人知道每个人知道它,等等。然而在许多协调博弈中,没有约定作为相应的博弈参与人进行行动选择的依据,当然沟通也是不可能的,在这样的情况下,人们又是怎样行动的呢?为了探寻在没有约定的情况下现实生活中人们是如何协调行

28、动的,我们进行了一个关于协调博弈的实验:请从2、7、8、9这 4 个数字中选出一个数字,若你所选的数字为在座的同学中最多的人所选的,那么你将是获胜者,请解释你的选择。该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一,即该实验是在考试中进行的(本题略带欺骗的性质,因为学生预先不知道该题做任何选择都给满分) 。实验总人数:167 人。在实验之前,学生没有听说过该类测试,在实验中学生之间没有任何交流。表 1数字 2 7 8 9 其他人数 54 15 86 7 5比例(%) 32.34% 8.98% 51.50% 4.19 2.99%图 1实验数据如附表 1 所示,有 51.50%

29、的人“不约而同”地选择了“8” 。按照题意,选“8”的人为胜出者。再进一步考察选“8”的理由可以看出,选“8”的 86 个答案中,有69 个是根据公共知识进行推理得出的。他们的理由是:“8”在中国人心中有特殊意义,人们对 8 代表“发”了解最为广泛,买车牌号码、电话号码等都喜欢带 8 的,寓发财发达之意、是国人喜欢的吉利数字、幸运发财之数,这是公共知识。这个实验是一个多数人参与的一次性协调博弈,在实验中,学生没有对哪个数字有过约定,每个数字被选择的几率“应当”是均等的。我们可以将该博弈设想为一个参与者与其他参与者之间的两方博弈(参与人 A 与参与人 B 之间的博弈) ,因此它可以还原为如附表2

30、 所示的数字选择协调博弈。这个博弈中有四个纳什均衡点,即2,2、7,7、8,8、9,9。对局双方只有共同合作才能取得双赢,参与人在哪个点上合作都可以得到收益 1,如果合作失败则收益为 0。这时,如果有约定,博弈的结果当然就显而易见了。但是,显然人们没有关于数字选择的约定。103.93.奥曼的相关均衡有通讯的博弈。一个相关均衡是博弈中所有参与人在调节人的帮助下能够自动执行的相关策略,而调解人向每个参与人做出不具约束力的秘密推荐。这里,推荐的概率是公共知识;该均衡是自我强制的或自我约束力的。X2 Y2X1 5,1 0,0Y1 4,4 1,5两个纯策略均衡点(5,1)(1,5)和一个混合策略均衡,此时的支付为(2.5,2.5)。相关均衡:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报