博弈论文档.doc-道客多多_道客多多docduoduo.com

资源描述

1、博弈论（Game Theory），亦名“对策论” 、 “赛局理论” ，属应用数学的一个分支，博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果基本概念（1)决策人：在博弈中率先作出决策的一方，这一方往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动。(2)对抗者：在博弈

2、二人对局中行动滞后的那个人，与决策人要作出基本反面的决定，并且他的动作是滞后的、默认的、被动的，但最终占优。他的策略可能依赖于决策人劣势的策略选择，占去空间特性，因此对抗是唯一占优的方式，实为领导人的阶段性终结行为。(3)局中人（players）：在一场竞赛或博弈中，每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈” ，而多于两个局中人的博弈称为 “多人博弈”。(4）策略（strategies）：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这

3、个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈” ，否则称为 “无限博弈”。(5）得失（payoffs ）：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失” 是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。(6）次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。(7）博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于

4、稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。所谓纳什均衡，它是一稳定的博弈结果。纳什均衡(Nash Equilibrium）：在一策略组合中，所有的参与者面临这样一种情况，当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略他的收益将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶” 概念的提出。所谓 “均衡偶”是在二人零和博弈中，当局中人 A 采取其最优策略 a*，局中人 B 也采取其最优策略 b*，如果局中人 B

5、仍采取b*，而局中人 A 却采取另一种策略 a，那么局中人 A 的收益不会超过他采取原来的策略 a*的收益。这一结果对局中人 B 亦是如此。这样， “均衡偶”的明确定义为：一对策略 a*（属于策略集 A）和策略 b*（属于策略集B）称之为均衡偶，对任一策略 a（属于策略集 A）和策略 b（属于策略集 B），总有：偶对（a,b*）偶对（a*,b*）偶对（a* ，b）。对于非零和博弈也有如下定义：一对策略 a*（属于策略集 A）和策略 b*（属于策略集B）称为非零和博弈的均衡偶，对任一策略 a（属于策略集 A）和策略 b（属于策略集 B），总有：对局中人 A 的偶对（a,b*）偶对（a*

6、,b*）；对局中人 B 的偶对（a*，b）偶对（a*,b* ）。有了上述定义，就立即得到纳什定理：任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。纳什定理的严格证明要用到不动点理论，不动点理论是经济均衡研究的主要工具。通俗地说，寻找均衡点的存在性等价于找到博弈的不动点。纳什均衡点概念提供了一种非常重要的分析手段，使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。但纳什均衡点定义只局限于任何局中人不想单方面变换策略，而忽视了其他局中人改变策略的可能性，因此，在很多情况下，纳什均衡点的结论缺乏说服力，研究者们形象地称之为“天真可爱的纳什均衡点 ”。塞尔顿（RSel

7、ten ）在多个均衡中剔除一些按照一定规则不合理的均衡点，从而形成了两个均衡的精炼概念：子博弈完全均衡和颤抖的手完美均衡。博弈类型博弈的分类根据不同的基准也有不同的分类。一般认为，博弈主要可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。通俗

8、的理解：“囚徒困境“ 就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静

9、态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium），子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium），精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium）。博弈论还有很多分类，比如：以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈；以表现形式也可以分为一般型（战略型）或者展开型，等等。案例-囚徒困境在博弈论中，含有占优战略均衡的一个著名例子是由塔

10、克给出的“囚徒困境”（prisoners dilemma）博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷 A 和 B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果两个犯罪嫌疑人都坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪，各被判刑 8 年；如果只有一个犯罪嫌疑人坦白，另一个人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑 2 年，而坦白者有功被减刑 8 年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱 1 年。下表给出了这个博弈的支付矩阵。囚徒困境博弈 Prisoners dilemmaAB 坦白抵赖坦白 -8， -8 0，-10抵赖 -10，0 -1， -1对 A 来说，尽管他不知道 B 作何选择，但他知道无论 B 选择什么，他选择“坦白” 总是最优的。显然，根据对称性，B 也会选择“坦白”，结果是两人都被判刑 8 年。但是，倘若他们都选择“抵赖”，每人只被判刑 1 年。在表 2.2 中的四种行动选择组合中，（抵赖、抵赖）是帕累托最优的，因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出，“坦白 ”是任一犯罪嫌疑人的占优战略，而（坦白，坦白）是一个占优战略均衡。

展开阅读全文