博弈论的书心得体会XX.docx.docx-道客多多

资源描述

1、博弈论的书心得体会 XX近日整理书橱时，我偶然看到了在东北财经大学学习研究生课程时所学的博弈论这本书。当时我们很幸运，学院特意选了东北财经大学优秀教师史永东教授来讲授这门课。史教授是当时东北财经大学最年轻的教授(时年 35 岁， 32 岁时就破格晋升为教授)，他把一门很深的学问给我们讲得惟妙惟肖，非常生动。直至今日随手翻阅时，仍能清楚地记起他讲课时激情洋溢的风采，但如今重新阅读这本书却有了不同的感受，当时是为了掌握其中的理论，现在则可以比较从容地去体会其中的道理了。博弈论是一门很深的学问，主要研究个体如何在错综复杂的相互影响中得出最合理的策略，其应用的领域也非常广，最通常的应用该是经

2、济学吧。这本书中的理论很深奥，其数学模型的推导更是复杂，然而书中的案例却既浅显又生动，很值得一看。现在拿出一个例子来，和大家一起分析其中的道理、分享其中的趣味。这个例子是“智猪博弈”的故事，讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。那么，两只猪各会采取什么策略?答案是：小猪将选择“搭便车”策略，也就是舒

3、舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在?因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的食物数量和踏板与投食口之间的距离。如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完;大猪去踩，小猪将也会

4、把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。这个故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最

5、有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。书中还有很多例子，并进行了分析，我们都能悟出些道理。所以读的时候会有一个感觉，那就是先有事实，后由理论。也就是我们常说的理论来源于实践。感觉就像是先有这个社会现象，然后才有这个理论去分析，这个理论套在这个社会现象上恰好合适。博弈小术语：收益矩阵、均衡、纳什均衡、零和博弈论，也称互动的决策论。它的基本假设之一是人是理性的。但现实并非如此，人不可能具有完备的知识也不可能时时理性。尽管如此，人们仍然乐意用博弈论的方法来解释和分析现实社会现象。每一次的人际

6、交往都可以简化成两个基本选择：合作或背叛。比如在前面的日志里提到的囚徒困境，在人际交往中普遍存在囚徒困境：双方明知合作能带来双赢，却因为理性的自私和信任的缺乏而导致合作难以形成。当一次性博弈出现时，人们往往会选择背叛。这在现实生活中也有很多例子，比如飞机场，为什么食品价格敢定那么高呢?因为它知道候机的乘客不会是它的长期客户。而当博弈的终点不可知时，就又是另一回事了。在多次博弈中，背叛仍不可避免，但合作的几率会相比一次博弈有提高。至于如何更加有效地减少背叛，一种办法是引入惩罚机制，可以是带剑的法律或温和些的道德约束。现实中的集体活动等候上车问题就是个例子，让那些迟到的人自己负责任就是一种惩罚措施

7、。当然，如果在开头就有一些“善意”的人出来表明合作态度对提高合作机会也是有帮助的，不管这些“善意”的人是出于何种目的。一旦合作开始，人们就能体验到合作的好处，并乐于坚持一段时间。至于时间的长短，关键是看博弈的终点是否明确。这在上面也提到了，如果终点明确，人们就会倾向于在最后一次背叛。而当大家都知道对方会这样想时，倒数第二次就会成为新的终点，新的背叛。如此反复推演，合作从一开始就很难形成。注意上面的论述是基于没有惩罚机制的基础。有一个很有意思的实验，是由爱克斯罗德完成的。这是一个计算机模拟竞赛，参赛的 62 位科学家递交了自己写的关于博弈策略的代码，同时加上爱克斯罗德本人写的一个随即策略代码，共 63 个。结果表明， “前 15 名中只有第8 名是非善意的程序，最后 15 名只有一个善意的，夺魁的是“一报还一报策略” 。这个实力不凡的“一报还一报策略”就是对方选择什么我就回应什么，你合作我就合作，你背叛我也背叛。这种策略体现的是“善良、可激怒、宽容、简单”等好品质。虽然该策略在每次对局中分数都不能超过对手，但它的总分却是最高的。它赖以生存的基础很牢固。而那个非善意程序的成功是建立在别人的失败之上。可以想像，如果赋予这些程序以进化的基因，久而久之，非善意程序的存活率将下降。

展开阅读全文