1、博弈论与数学模型,主要内容, 上篇:数学理论 博弈论概说 矩阵博弈 Nash均衡和Nash定理, 下篇:数学模型 Hotelling模型 Cournot和Bertrand模型 稳定婚姻问题,博弈与博弈论, 博弈论(game theory):研究利益存在冲突的决策主体在相互依赖的条件下,如何选择适当的策略实施以获得最大利益。 研究对象不是客观规律,而是带有主动性的人的活动。 最优不是绝对的,而是现有主客观条件下的理想结果。,博弈论的发展简史, 古代文献中的朴素博弈论思想 田忌赛马(中国,春秋时代) Talmud中的债务分摊原则(以色列,公元6世 纪前) 自二十世纪二十年代起,von Neuman
2、n,Zermelo,Borel等数学家相继给出了若干博弈论结论。 1944年,von Neumann和Morgenstern著作Theory of Games and EconomicBehavior出版,这是博弈论正式形成的标志。 Princeton Press,1944,博弈论的发展简史,1950-1953年,Nash先后发表四篇论文,提出了Nash均衡,讨价还价等一系列重要概念。 二十世纪六七十年代起,经济学、社会学和生物学领域开始大量应用博弈论,并逐渐在经济学界取得重要地位。 1994年,三位博弈论研究者Nash,Harsanyi,Selten获诺贝尔经济学奖,博弈论开始走入大众视野。
3、,博弈的要素,参与者(player) :参与博弈的决策主体。 行动(actions):参与者可以采取的行动(策略)方案的全体;所有参与者采取各自的行动后形成的状态称为局势(outcome)。 收益(payoff):各个参与者在不同局势下获得的利益。 规则(rule):对参与者行动的先后顺序、参与者获知信息的多少等内容的具体规定。,美苏冷战,参与者:美国,苏联 行动集美国:强硬、妥协苏联:强硬、妥协 局势美国强硬、苏联强硬 两败俱伤、同归于尽美国强硬、苏联妥协 美国得益、苏联受损美国妥协、苏联强硬 苏联得益、美国受损美国妥协、苏联妥协 互不侵犯、和平共处,美苏冷战,收益:由于实际情况的复杂性,参
4、与者的收益很 难精确量化,因此收益多表现为偏好或序关系。 美方偏好排序 苏方偏好排序负无穷 美国强硬苏联强硬 负无穷1 美国强硬苏联妥协 -1-1 美国妥协苏联强硬 10 美国妥协苏联妥协 0,美苏冷战,研究博弈的重要内容之一是分析每个局势是否会出现、是否会稳定。 当参与者只有两个时,博弈可以用简洁的形式表示。,美苏冷战,美国强硬、苏联妥协是稳定点 美国妥协、苏联强硬是稳定点,美苏冷战,美国强硬、苏联强硬不会出现,美国妥协、苏联妥协不会出现 冷战时期,美苏在世界各地争夺霸权,曾多次出现紧张局势,但最后都以一方的妥协而告终,上述模型较好地解释了这一现象。,非合作博弈的分类,根据参与者是否同时行动
5、:静态博弈,动态博弈 根据参与者掌握信息的多少:完全信息博弈,不完全信息博弈,对策论v.s. 博弈论,数学v.s. 经济学,博弈论和数学建模,矩阵博弈, 参与者为两人:甲、乙 每人的可行策略集为有限集: 两人收益之和为零,博弈可用一矩阵、即甲的收益矩阵A来表示,乙的收益矩阵为-A。,极大极小原则,鞍点,矩阵博弈,纯策略和混合策略,若参与者每次行动都选择某个确定的策略,我们称之为纯策略(pure strategy)。 若参与者行动时可以以一定的概率分布选择若干个不同的策略,这样的策略称为混合策略(mixed strategy)。 在混合策略意义下,参与者的收益实质上表现为期望。,矩阵博弈的混合策
6、略,甲、乙的混合策略集分别为设甲、乙采用的混合策略分别为, 甲的期望收益为,Von Neumann定理,线性规划,历史回眸,双矩阵博弈,零和的要求限制了矩阵博弈在经济学中的应用,也阻碍了非合作博弈向多人推广。 对两人非零和有限博弈,双方收益需用两个矩阵表示,称为双矩阵博弈(bimatrix game)。 1960年,Lemke和Howson给出了求解双矩阵博弈解的算法,但该算法是指数时间的。,John Forbes Nash,Nash 均衡,完全信息静态博弈的某个局势称为Nash 均衡(Nash equilibrium),若每一个理性的参与者都不会单独偏离它。即在其他参与者的策略不变情况下,单
7、独采取其他策略,收益不会增加。 矩阵博弈的解即为Nash 均衡,因此Nash 均衡可视作矩阵博弈解的概念向非零和、无限策略集、多人博弈的推广。,囚徒困境(Prisoners Dilemma),双人博弈,Stag or Hare,n个猎人相约去打猎,猎场中有鹿和兔两种动物,鹿的价值远大于兔的价值。每个猎人在打猎时只能专注于一种猎物,猎到某猎物后他即中止打猎。 一头鹿需要所有人协力才能捕获,一只兔只要单人努力即可捕获,所有人协力获得的猎物收益由所有人平分。 所有人捕鹿或所有人捕兔是两个Nash均衡。,Nash 均衡的性质,Nash 均衡是理性参与者在动态决策过程中可以预见的终极局势。 Nash 均
8、衡具有稳定性,一经形成后不用外力即可维持。 Nash 均衡从整体而言未必是最优局势,也未必是每个参与者的最优选择。,Braess悖论,Braess悖论,Shapley 网络设计问题,现有一由若干节点和线路组成的通讯网络,每个使用者可借此网络建立两点之间的通讯联系,为此需向网络所有商购买线路使用权。 每条线路价格不同。若多个使用者共同使用某线路,费用由这些使用者分摊。,Shapley 网络设计问题,Shapley 网络设计问题,Nash均衡的数学定义,最优反应函数,不动点定理,Nash 定理,(Nash 定理)设参与者数目有限,每位参与者策略集均有限,收益函数为实值函数,则博弈必存在混合策略意义
9、下的Nash均衡。 Nash 定理的证明只是一个存在性证明,并没有给出Nash均衡的求法。Nash均衡(或近似Nash均衡)的算法与复杂性问题是近年来理论计算机科学的关注热点。,Hotelling 模型,现有两家快餐连锁店拟在一条街道上开设分店。 居民住宅在街道上均匀分布,每人都会选择距他住址较近的一家快餐店就餐(若距离相等则随机选择一家)。 两家连锁店应分别在何处选址才能吸引较多的顾客。 Harold Hotelling(1895-1973)美国数学家、经济学家、统计学家,Hotelling 模型,Hotelling 模型,Hotelling 模型,Hotelling 模型,最优反应函数,N
10、ash均衡,(1/2,1/2)是Nash均衡,两家快餐店开在同一地点,平分所有的客源。 该模型可推广为居民住址服从任意连续分布的情形。若分布的中位数m为,则Nash均衡为(m,m)。,三方竞争,选举,候选人政纲和选民主张均可抽象为一实数。选举时选民投票给政纲距本人主张最接近的候选人。获得最多选民支持的候选人当选。 实行两党制的国家在竞选时两党的政纲区别不大,旨在争取中间选民。实行多党制的国家政党分分合合,政府更迭频繁。,竞争上岗,每位选民都可以自荐为候选人,其政纲即为本人主张。 参选需要支付成本b,当选可获得收益c。若未当选或未参选另有损失d, d表示其主张与当选人政纲的距离。Nash均衡为何
11、?是否应该自荐为候选人? (和b,c大小以及本人观点与m 距离有关),Cournot 双头垄断,两家垄断企业生产同一产品,生产单位产品的成本为常数C。 若市场上该产品供应量为Q,则产品销售价格为a-Q,其中a为一常数。 两家企业应如何选择各自的产量可使自身获益最大。 Antoine Augustin Cournot(18011877)法国数学家、经济学家、哲学家,Cournot 双头垄断,最优反应函数,Nash均衡,联合,欺骗,Bertrand双寡头垄断,Bertrand双寡头垄断,最优反应函数,Nash均衡,稳定婚姻问题,稳定婚姻问题,算法,“男士选择,女士决定” 每位男士都选择他最钟爱的女
12、士。 如果有女士被两位或者以上的男士选择,则这几位男士中除了她最喜欢的之外,对其他男士都表示拒绝。 被拒绝的那些男士转而考虑他(们)的除被拒绝之外的最满意女士。如果存在冲突(包括和之前选择某女士的男士发生冲突),则再由相应的女士决定拒绝哪些男士。 以上过程持续进行,直至不再出现冲突为止。,算法,最优性,称一组稳定婚姻是男方最优的,如果在该组婚姻中,每位男士都认为其配偶不比任何一组稳定婚姻中他的配偶来的差。 男方最优的稳定婚姻是唯一的,同时必是女方最劣的。“男士选择,女士决定”算法给出的总是一组“男方最优” 的稳定婚姻。,稳定婚姻问题的应用,稳定婚姻(stable marriage)及衍生问题在理论上具有重要的意义,在实践中发挥了巨大的作用。 申请式学校录取 用人单位与求职者双向选择 选择不同类型的算法可满足保护不同群体利益的要求。,欺骗,机制设计,是否存在一种机制(算法),能鼓励参与者真实表达意愿,即参与者不会因为虚假表达意愿而获益。 给定任何一稳定婚姻问题的算法,参与者都可以通过提供虚假偏好顺序而获得更好的一组稳定婚姻。 对给出男(女)方最优稳定婚姻的算法,男(女)方不可能通过提供虚假偏好顺序获得更好的一组稳定婚姻。,谢谢,