人工智能模型与算法：博弈安全.pdf-道客多多

资源描述

1、人工智能博弈与安全人工智能：模型与算法提纲 1、博弈相关概念 2、遗憾最小化算法 3、虚拟遗憾最小化算法 4、人工智能安全博弈论的诞生：中国古代博弈思想子曰：饱食终日，无所用心，难矣哉！不有博弈者乎？为之，犹贤乎已。论语阳货朱熹集注曰：“ 博，局戏；弈，围棋也。 ”；颜师古注：“博，六博；弈，围碁也。” 古语博弈所指下围棋，围棋之道又蕴含古人谋划策略的智慧。略观围棋，法于用兵，怯者无功，贪者先亡。围棋赋孙子兵法等讲述兵书战法的古代典籍更是凸显了古人对策略的重视。博弈论的诞生：田忌赛马齐将田忌善而客待之。忌数与齐诸公子驰逐重射。孙子见其马足不甚相远，马

2、有上、中、下辈。于是孙子谓田忌曰：“君弟重射，臣能令君胜。”田忌信然之，与王及诸公子逐射千金。及临质，孙子曰：“今以君之下驷与彼上驷，取君上驷与彼中驷，取君中驷与彼下驷。”既驰三辈毕，而田忌一不胜而再胜，卒得王千金。于是忌进孙子于威王。威王问兵法，遂以为师。史记孙子吴起列传对局齐王马田忌马结果 1 A+ A- 齐王胜 2 B+ B- 齐王胜 3 C+ C- 齐王胜对局齐王马田忌马结果 1 A+ C- 齐王胜 2 B+ A- 田忌胜 3 C+ B- 田忌胜 3:0 1:2 以己之长攻彼之短博弈论的诞生：现代博弈论的建立博弈论（ game theory），又称对策论。

3、博弈行为：带有相互竞争性质的主体，为了达到各自目标和利益，采取的带有对抗性质的行为。博弈论主要研究博弈行为中最优的对抗策略及其稳定局势，协助人们在一定规则范围内寻求最合理的行为方式。 1944年冯诺伊曼与奥斯卡摩根斯特恩合著博弈论与经济行为，以数学形式来阐述博弈论及其应用，标志着现代系统博弈理论的初步形成，冯诺伊曼被称为现代博弈论之父。 John von Neumann(1903-1957), Oskar Morgenstern(1902-1977), Theory of Games and Economic Behavior, Princeton Uni

4、versity Press, 1944 博弈论的相关概念：博弈的要素参与者或玩家（ player）：参与博弈的决策主体策略（ strategy）：参与者可以采取的行动方案，是一整套在采取行动之前就已经准备好的完整方案。某个参与者可采纳策略的全体组合形成了策略集（ strategy set）所有参与者各自采取行动后形成的状态被称为局势（ outcome）如果参与者可以通过一定概率分布来选择若干个不同的策略，这样的策略称为混合策略（ mixed strategy）。若参与者每次行动都选择某个确定的策略，这样的策略称为纯策略（ pure strategy）收益（

5、 payoff）：各个参与者在不同局势下得到的利益混合策略意义下的收益应为期望收益（ expected payoff）规则（ rule）：对参与者行动的先后顺序、参与者获得信息多少等内容的规定建模者对参与者（ player）规定可采取的策略集 (strategy sets)和取得的收益，观察当参与者选择若干策略以最大化其收益时会产生什么结果两害相权取其轻，两利相权取其重博弈论的相关概念：研究范式博弈论的相关概念：囚徒困境（ prisoners dilemma）参与者：甲、乙规则：甲、乙两人分别决策，无法得知对方的选择策略集：认罪、沉默（纯策略）局势及对应收

6、益（年）甲认罪： 0 乙沉默： -10 甲认罪： -5 乙认罪： -5 甲沉默： -10 乙认罪： 0 甲沉默： -0.5 乙沉默： -0.5 在囚徒困境中，最优解为两人同时沉默，但是两人实际倾向于选择同时认罪（均衡解） 1950年，兰德公司的梅里尔弗勒德和梅尔文德雷希尔拟定了相关困境理论，后来美国普林斯顿大学数学家阿尔伯特塔克以 “ 囚徒方式 ” 阐述：警方逮捕了共同犯罪的甲、乙两人，由于警方没有掌握充分的证据，所以将两人分开审讯：若一人认罪并指证对方，而另一方保持沉默，则此人会被当即释放，沉默者会被判监禁 10年若两人都保持沉默，则根据已有的犯罪事实（无

7、充分证据）两人各判半年若两人都认罪并相互指证，则两人各判 5年乙沉默（合作）乙认罪（背叛）甲沉默（合作）二人各服刑半年乙被释放，甲服刑 10年甲认罪（背叛）甲被释放，乙服刑 10年二人各服刑 5年囚徒困境产生的原因：对甲而言，若乙沉默，自己认罪的收益为 0，而自己也沉默则收益为 -0.5；若乙认罪，自己认罪则收益为 -5，自己沉默则收益为 -10 对乙而言，若甲沉默，自己认罪的收益为 0，而自己也沉默则收益为 -0.5；若甲认罪，自己认罪的收益为 -5，自己沉默则收益为 -10 即对两人而言认罪的收益在任何情况下都比沉默的收益高，所

8、以两人同时认罪是一个稳定的局势，其他三种情况都不是稳定局势囚徒困境表明稳定局势并不一定是最优局势博弈论的相关概念：囚徒困境（ prisoners dilemma）参与者：甲、乙规则：甲、乙两人分别决策，无法得知对方的选择策略集：认罪、沉默（纯策略）局势及对应收益（年）甲认罪： 0 乙沉默： -10 甲认罪： -5 乙认罪： -5 甲沉默： -10 乙认罪： 0 甲沉默： -0.5 乙沉默： -0.5 在囚徒困境中，最优解为两人同时沉默，但是两人实际倾向于选择同时认罪（均衡解）合作博弈与非合作博弈合作博弈（ cooperative game）：部分

9、参与者可以组成联盟以获得更大的收益非合作博弈（ non-cooperative game）：参与者在决策中都彼此独立，不事先达成合作意向静态博弈与动态博弈静态博弈（ static game）：所有参与者同时决策，或参与者互相不知道对方的决策动态博弈（ dynamic game）：参与者所采取行为的先后顺序由规则决定，且后行动者知道先行动者所采取的行为完全信息博弈与不完全信息博弈完全信息（ complete information）：所有参与者均了解其他参与者的策略集、收益等信息不完全信息（ incomplete information）：并非所

10、有参与者均掌握了所有信息囚徒困境是一种非合作、不完全信息的静态博弈博弈论的相关概念：博弈的分类博弈的稳定局势即为纳什均衡（ Nash equilibrium）：指的是参与者所作出的这样一种策略组合，在该策略组合上，任何参与者单独改变策略都不会得到好处。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。 Nash定理：若参与者有限，每位参与者的策略集有限，收益函数为实值函数，则博弈必存在混合策略意义下的纳什均衡。囚徒困境中两人同时认罪就是这一问题的纳什均衡

11、。 Nash, J, Non-Cooperative Games. The Annals of Mathematics. 54, 2 (1951), 286. 博弈论的相关概念：纳什均衡博弈论的相关概念：混合策略下纳什均衡的例子参与者：雇员、雇主规则：雇员与雇主两人分别决策，事先无法得知对方的选择混合策略集：雇员：偷懒、不偷懒雇主：检查、不检查局势及对应收益雇主采取检查策略时雇员工作与偷懒对应的结果雇主采取不检查策略时雇员工作与偷懒对应的结果例子：公司的雇主是否检查工作与雇员是否偷懒是雇员的贡献，是雇员的工资，是雇员的付出，是检查的成本，是雇主

12、发现雇员偷懒对雇员的惩罚（没收抵押金）。假定雇员偷懒不偷懒雇主 . 检查 +, , 不检查 , , 是雇员的贡献，是雇员的工资，是雇员的付出，是检查的成本，是雇主发现雇员偷懒而对雇员的惩罚（没收抵押金）。假定雇员偷懒不偷懒雇主 . 检查 +, , 不检查 , , 采取策略收益雇主检查 1 = + +(1)( ) 不检查 2 = +(1)( ) 雇员偷懒 3 = + 1 不偷懒 4 = +(1) = 若雇主检查的概率为，雇员偷懒的概率为博弈论的相关概念：混合策略下纳什均衡的例子纳什均衡：其他参与者策略不变的情况下，某个参与者单独采取

13、其他策略都不会使得收益增加无论雇主是否检查，雇员的收益都一样；无论雇员是否偷懒，雇主的收益都一样于是有 1 = 2 以及 3 = 4 在纳什均衡下，由于 3 = 4，可知雇主采取检查策略的概率（雇主趋向于用这个概率去检查）： = + 在纳什均衡下，由于 1 = 2，可知雇员采取偷懒策略的概率（雇员趋向于用这个概率去偷懒）： = + 在检查概率为之下，雇主的收益： 1 = 2 = + 对上式中求导，则当 = 时，雇主的收益最大，其值为 = 2 + 采取策略收益雇主检查 1 = + +(1)( ) 不检查 2 = +(1)( ) 雇员偷懒 3

14、 = + 1 不偷懒 4 = +(1) = 若雇主检查的概率为，雇员偷懒的概率为混合策略纳什均衡：博弈过程中，博弈方通过概率形式随机从可选策略中选择一个策略而达到的纳什均衡被称为混合策略纳什均衡。博弈论的相关概念：混合策略下纳什均衡的例子提纲 1、博弈相关概念 2、遗憾最小化算法 3、虚拟遗憾最小化算法 4、人工智能安全博弈论与计算机科学冯诺依曼：现代计算机之父 +现代博弈论之父博弈论与计算机科学的交叉领域非常多理论计算机科学：算法博弈论人工智能：多智能体系统、 AI游戏玩家、人机交互、机器学习、广告推荐互联网：互联网经济、共享经济分布式系统：

15、区块链人工智能与博弈论相互结合，形成了两个主要研究方向博弈策略的求解博弈规则的设计博弈策略求解动机博弈论提供了许多问题的数学模型纳什定理确定了博弈过程问题存在解人工智能的方法可用来求解均衡局面或者最优策略主要问题如何高效求解博弈参与者的策略以及博弈的均衡局势？应用领域大规模搜索空间的问题求解：围棋非完全信息博弈问题求解：德州扑克网络对战游戏智能： Dota、星球大战动态博弈的均衡解：厂家竞争、信息安全遗憾最小化算法（ Regret Minimization）：若干定义假设一共有个玩家。玩家所采用的策略表示为。对于每个信息集 , : 0,1是在动

16、作集上的概率分布函数。玩家的策略空间用表示。一个策略组包含所有玩家策略，用 = (1,2,|)。表示中除了之外的策略（即除去玩家所采用的策略 ) 在博弈对决中，不同玩家在不同时刻会采取相应策略以及行动。策略下对应的行动序列发生的概率表示为 () 。于是， = () ，这里表示玩家使用策略促使行动序列发生的概率。除玩家以外，其他玩家通过各自策略促使行动序列发生的概率可表示为： = () 对于每个玩家， : 表示玩家的收益函数，即在到达终止序列集合中某个终止序列时，玩家所得到的收益。玩家在给定策略下所能得到的期望收益可如下计算： = (

17、)() 遗憾最小化算法：最佳反应策略与纳什均衡玩家对于所有其他玩家的策略组的最佳反应策略满足如下条件： , max(,) 在策略组中，如果每个玩家的策略相对于其他玩家的策略而言都是最佳反应策略，那么策略组就是一个纳什均衡（ Nash equilibrium）策略。纳什均衡：策略组 = (1,2,| )是纳什均衡当且仅当对每个玩家，满足如下条件： max(1,2,| ) 遗憾最小化算法：纳什均衡与平均遗憾值纳什均衡：对于给定的正实数，策略组是纳什均衡当且仅当对于每个玩家，满足如下条件： + max(,) 平均遗憾值 (average ove

18、rall regret)：假设博弈能够重复地进行（如围棋等），令第次博弈时的策略组为，若博弈已经进行了 M次，则这 M次博弈对于玩家的平均遗憾值定义为： =1max(=1, )() 遗憾最小化算法：策略选择遗憾最小化算法是一种根据过去博弈中的遗憾程度来决定将来动作选择的方法在博弈中，玩家在第轮次（每一轮表示一次博弈完成）采取策略的遗憾值定义如下（累加遗憾）： () = ( , )=1 通常遗憾值为负数的策略被认为不能提升下一时刻收益，所以这里考虑的遗憾值均为正数或 0 计算得到玩家在第轮次采取策略的遗憾值后，在第 +1轮次玩家选择策略的概率如下（悔值越大、

19、越选择，即亡羊补牢） = ()()所有可选择策略假设两个玩家 A和 B进行石头 -剪刀 -布（ Rock-Paper-Scissors， RPS）的游戏，获胜玩家收益为 1分，失败玩家收益为 -1分，平局则两个玩家收益均为零分第一局时，若玩家 A出石头（ R），玩家 B出布（ P），则此时玩家 A的收益 , = 1，玩家 B的收益为 , = 1 对于玩家 A来说，在玩家 B出布（ P）这个策略情况下，如果玩家 A选择出布（ P）或者剪刀（ S），则玩家 A对应的收益值 , = 0或者 A , = 1 所以第一局之后，玩家 A没有出布的遗憾值为 , , = 0 1 =1，没有出剪刀的遗

20、憾值为 , , = 1 1 = 2 所以在第二局中，玩家 A选择石头、剪刀和布这三个策略的概率分别为 0、 2/3、 1/3。因此，玩家 A趋向于在第二局中选择出剪刀这个策略遗憾最小化算法：石头 -剪刀 -布的例子在第一轮中玩家 A选择石头和玩家 B选择布、在第二局中玩家 A选择剪刀和玩家 B选择石头情况下，则玩家 A每一轮遗憾值及第二轮后的累加遗憾取值如下：从上表可知，在第三局时，玩家 A选择石头、剪刀和布的概率分别为 1/6、 2/6、 3/6 在实际使用中，可以通过多次模拟迭代累加遗憾值找到每个玩家在每一轮次的最优策略但是当博弈状态空间呈指数增长时，对一个规模巨大

21、的博弈树无法采用最小遗憾算法每轮悔值策略石头剪刀布第一轮悔值 0 2 1 第二轮悔值 1 0 2 2 1 2 3 遗憾最小化算法：石头 -剪刀 -布的例子 , 玩家每一轮悔值计算公式：提纲 1、博弈相关概念 2、遗憾最小化算法 3、虚拟遗憾最小化算法 4、人工智能安全虚拟遗憾最小化算法（ Counterfactual Regret Minimization）如果不能遍历计算所有节点的遗憾值，那么可以采用虚拟遗憾最小化算法来进行模拟计算假设：集合是博弈中所有玩家所能采用的行为集（如在石头 -剪刀 -布游戏中出石头、出剪刀或出布三种行为）为

22、信息集，包含了博弈的规则以及玩家采取的历史行动，在信息集下所能采取的行为集合记为玩家在第轮次采取的行动 ()反映了其在该轮次所采取的策略。包含玩家在内的所有玩家在第轮次采取的行动 ()构成了一组策略组合。在信息集下采取行动所反映的策略记为。虚拟遗憾最小化算法在第轮次所有玩家采取的行动是一条序列，记为。采取某个策略计算行动序列出现的概率记为 () 每个信息集发生的概率 () = () ，表示所有能够到达该信息集的行动序列的概率累加。给定博弈的终结局势，玩家在游戏结束后的收益记作 () 在策略组合下，施加博弈行动序列后

23、达到最终局势的概率为 (,) 当采取策略时，其所对应的行动序列的虚拟价值（ Counterfactual Value）如下计算 (注：行动序列未能使博弈进入终结局势 )： (,) = ()(,)() 玩家采取行动所得到的虚拟遗憾值： (,) = , (,) 行动序列所对应的信息集遗憾值为： (,) = (,) 玩家在第轮次采取行动的遗憾值为： (,) = =1(,) 虚拟遗憾最小化算法同样，对于遗憾值为负数的情况，我们不予考虑，记： ,+(,) = max (,),0 在 +1轮次，玩家选择行动的概率计算如下： +1(,) =,+(,),+(,)()

24、if ,+()(,) 01|()| otherwise 玩家根据遗憾值大小来选择下一时刻行为，如果遗憾值为负数，则随机挑选一种行为进行博弈虚拟遗憾最小化算法库恩扑克（ Kunhs pocker ）库恩扑克是最简单的限注扑克游戏，由两名玩家进行游戏博弈，牌值只有 1,2和 3三种情况每轮每位玩家各持一张手牌，根据各自判断来决定加定额赌注游戏没有公共牌，摊牌阶段比较未弃牌玩家的底牌大小，底牌牌值最大的玩家即为胜者库恩扑克（ Kunhs pocker ）游戏规则玩家 A 玩家 B 玩家 A 结果过牌过牌牌值大的玩家 +1 加注加注牌值大的玩家 +2 过牌加注过牌玩家 B +1 过牌加注加注牌值大的玩家 +2 加注过牌玩家 A +1

展开阅读全文