1、人工智能博弈与安全 人工智能:模型与算法 提纲 1、 博弈相关 概念 2、遗憾最小化算法 3、虚拟遗憾最小化算法 4、人工智能安全 博弈论的诞生: 中国古代博弈思想 子曰:饱食终日 ,无所用心,难矣哉!不有博弈者乎?为之,犹贤乎已 。 论语 阳货 朱熹集注曰:“ 博,局戏;弈, 围棋也。 ”;颜师古注:“博,六博;弈,围碁也。” 古语博弈所指下围棋,围棋之道又蕴含古人谋划策略的智慧。 略 观围棋,法于用兵,怯者无功,贪者先亡 。 围棋赋 孙子兵法 等讲述兵书战法的古代典籍更是凸显了古人对策略的重视。 博弈论的诞生: 田忌赛马 齐将田忌善而客待之。忌数与齐诸公子驰逐重射。孙子见其马足不甚相远,马
2、有上、中、下辈。于是孙子谓田忌曰:“君弟重射,臣能令君胜。”田忌信然之,与王及诸公子逐射千金。及临质,孙子曰:“今以君之下驷与彼上驷,取君上驷与彼中驷,取君中驷与彼下驷。”既驰三辈毕,而田忌一不胜而再胜,卒得王千金。于是忌进孙子于威王。威王问兵法,遂以为师。 史记 孙子吴起列传 对局 齐王马 田忌马 结果 1 A+ A- 齐王胜 2 B+ B- 齐王胜 3 C+ C- 齐王胜 对局 齐王马 田忌马 结果 1 A+ C- 齐王胜 2 B+ A- 田忌胜 3 C+ B- 田忌胜 3:0 1:2 以己之长 攻彼之短 博弈论的诞生 : 现代博弈论的建立 博弈论( game theory),又称对策论。
3、 博弈行为:带有 相互竞争性质 的主体,为了达到各自目标和利益,采取的带有 对抗性质的行为 。 博弈论主要研究博弈行为中最优的 对抗策略 及其稳定局势 ,协助人们在一定规则范围内寻求最合理的行为方式。 1944年冯 诺伊曼与奥斯卡 摩根斯特恩合著 博弈论与经济行为 ,以数学形式来阐述博弈论及其应用,标志 着现代系统博弈 理论的 初步 形成,冯 诺 伊曼被称为现代博弈论之父。 John von Neumann(1903-1957), Oskar Morgenstern(1902-1977), Theory of Games and Economic Behavior, Princeton Uni
4、versity Press, 1944 博弈论的相关概念: 博弈的要素 参与者或玩家 ( player):参与博弈的决策主体 策略 ( strategy):参与者可以采取的行动方案,是一整套在采取行动之前就已经准备好的完整方案。 某个参与者可采纳策略的全体组合形成了 策略集 ( strategy set) 所有参与者各自采取行动后形成的状态被称为 局势 ( outcome) 如果参与者可以通过一定概率分布来选择若干个不同的策略,这样的策略称为 混合策略 ( mixed strategy)。 若参与者每次行动都选择某个确定的策略,这样的策略称为 纯策略 ( pure strategy) 收益 (
5、 payoff):各个参与者在不同局势下得到的利益 混合策略意义下的收益应为期望收益( expected payoff) 规则 ( rule):对参与者行动的先后顺序、参与者获得信息多少等内容的规定 建模者对参与者( player)规定可采取的策略 集 (strategy sets)和取得的收益,观察当参与者选择若干策略以最大化其收益时会产生什么结果 两害相权取其轻,两利相权取其重 博弈论的相关概念 : 研究范式 博弈论的相关概念: 囚徒困境( prisoners dilemma) 参与者 :甲、乙 规则 :甲、乙两人分别决策,无法得知对方的选择 策略 集 :认罪、沉默(纯策略) 局势及对应收
6、益(年) 甲认罪: 0 乙沉默: -10 甲认罪: -5 乙认罪: -5 甲沉默: -10 乙认罪: 0 甲 沉默: -0.5 乙沉默: -0.5 在囚徒困境中, 最优解 为两人同时沉默,但是两人实际倾向于选择同时认罪( 均衡解 ) 1950年 , 兰德公司 的梅里尔 弗勒德和梅尔文 德雷希尔拟定了相关困境理论 , 后来美国普林斯顿大学数学家阿尔伯特 塔克 以 “ 囚徒方式 ” 阐述: 警方逮捕了共同犯罪的甲、乙两人,由于警方没有掌握充分的证据,所以将两人分开审讯: 若一人认罪并指证对方,而另一方保持沉默,则此人会被当即释放,沉默者会被判监禁 10年 若两人都保持沉默,则根据已有的犯罪事实(无
7、充分证据)两人各判半年 若两人都认罪并相互指证,则两人各判 5年 乙沉默(合作) 乙认罪(背叛) 甲沉默(合作) 二人各 服刑半年 乙被释放, 甲服刑 10年 甲认罪(背叛) 甲被释放, 乙服刑 10年 二人各 服刑 5年 囚徒 困境产生的原因: 对甲而言,若乙沉默,自己 认罪的收益 为 0,而自己也 沉默则收益 为 -0.5;若 乙认罪,自己认罪则收益 为 -5,自己 沉默则收益 为 -10 对乙而言,若甲沉默,自己 认罪的收益 为 0,而自己也 沉默则收益 为 -0.5;若甲认罪,自己认罪的收益 为 -5,自己 沉默则收益 为 -10 即对两人而言认罪的收益在任何情况下都比沉默的收益高,所
8、以两人同时认罪是一个稳定的局势,其他三种情况都不是稳定局势 囚徒 困境表明稳定局势并不一定是最优局势 博弈论的相关概念: 囚徒困境( prisoners dilemma) 参与者 :甲、乙 规则 :甲、乙两人分别决策,无法得知对方的选择 策略 集 :认罪、沉默(纯策略) 局势及对应 收益(年) 甲认罪: 0 乙沉默: -10 甲认罪: -5 乙认罪: -5 甲沉默: -10 乙认罪: 0 甲 沉默: -0.5 乙沉默: -0.5 在囚徒困境中, 最优解 为两人同时沉默,但是两人实际倾向于选择同时认罪( 均衡解 ) 合作博弈与非合作博弈 合作博弈 ( cooperative game) : 部分
9、参与者可以组成联盟以获得更大的收益 非合作博弈 ( non-cooperative game) : 参与者在决策中都彼此独立,不事先达成合作意向 静态博弈与动态博弈 静态 博弈 ( static game) : 所有 参与者同时 决策,或参与者互相不知道对方的决策 动态 博弈 ( dynamic game) : 参与者所采取行为的先后顺序由规则决定,且后行动者知道先行动者所采取的行为 完全 信息 博弈与不完全信息博弈 完全 信息 ( complete information):所有参与者均了解其他参与者的策略集、收益等信息 不完全信息 ( incomplete information):并非所
10、有参与者均掌握了所有信息 囚徒困境是一种非合作、不完全信息的静态博弈 博弈论的相关概念 : 博弈的分类 博弈的稳定局势即为 纳什均衡 ( Nash equilibrium) :指的是 参与者所作出的这样 一种策略组合 , 在该策略组合上 , 任何 参与者单独 改变策略都不会得到好处 。 换句话说 , 如果在一个策略组合上 , 当所有其他人都不改变策略时 , 没有人会改变自己的策略 ,则该策略组合就是一个纳什均衡 。 Nash定理 :若参与者有限 , 每位参与者的策略集有限 , 收益函数为实值函数 , 则博弈必 存在 混合策略意义下的纳什均衡 。 囚徒 困境中两人同时认罪就是这一问题的纳什均衡
11、。 Nash, J, Non-Cooperative Games. The Annals of Mathematics. 54, 2 (1951), 286. 博弈论的相关概念 : 纳什均衡 博弈论的相关概念 : 混合策略 下纳什均衡的例子 参与者: 雇员、雇主 规则: 雇员与雇主两人分别决策,事先无法得知对方的选择 混合策略 集: 雇员:偷懒、不偷懒 雇主:检查、不检查 局势及对应收益 雇主采取检查策略时雇员工作与偷懒对应的结果 雇主采取不检查策略时雇员 工作与偷懒对应的 结果 例子:公司的雇主是否检查工作与雇员是否偷懒 是雇员的贡献, 是雇员的工资, 是雇员的付出, 是检查的成本, 是雇主
12、发现雇员偷懒对雇员的惩罚(没收抵押金) 。 假定 雇员 偷懒 不偷懒 雇主 . 检查 +, , 不检查 , , 是雇员的贡献, 是雇员的工资, 是雇员的付出, 是检查的成本, 是雇主发现雇员 偷懒而对 雇员的惩罚(没收抵押金) 。 假定 雇员 偷懒 不偷懒 雇主 . 检查 +, , 不检查 , , 采取 策略 收益 雇主 检查 1 = + +(1)( ) 不检查 2 = +(1)( ) 雇员 偷懒 3 = + 1 不偷懒 4 = +(1) = 若雇主检查的概率为 ,雇员偷懒的概率为 博弈论的相关概念 : 混合策略 下纳什均衡的例子 纳什均衡:其他参与者 策略不变的情况下 ,某个参与者单独 采取
13、其他策略都不会使得收益 增加 无论雇主是否检查,雇员的收益都一样;无论雇员是否偷懒,雇主的收益都一样 于是有 1 = 2 以及 3 = 4 在纳什均衡下,由于 3 = 4,可知雇主采取检查策略的概率(雇主趋向于用这个概率去检查): = + 在纳什均衡下 , 由于 1 = 2, 可知雇员采取偷懒策略的 概率 ( 雇员趋向 于用这个概率 去偷懒 ) : = + 在检查概率为 之下 , 雇主的收益: 1 = 2 = + 对上式中 求导 , 则当 = 时 , 雇主的收益最大 , 其值为 = 2 + 采取 策略 收益 雇主 检查 1 = + +(1)( ) 不检查 2 = +(1)( ) 雇员 偷懒 3
14、 = + 1 不偷懒 4 = +(1) = 若雇主检查的概率为 ,雇员偷懒的概率为 混合策略纳什均衡:博弈过程中,博弈 方通过概率形式随机 从可选策略中选择一个策略而达到的纳什均衡被称为混合策略纳什均衡。 博弈论的相关概念 : 混合策略 下纳什均衡的例子 提纲 1、博弈相关概念 2、遗憾最小化算法 3、虚拟遗憾最小化算法 4、人工智能安全 博弈论与计算机科学 冯 诺依曼:现代 计算机 之父 +现代 博弈论 之父 博弈论与计算机科学的交叉领域非常多 理论计算机科学:算法博弈论 人工智能 : 多智能体 系统、 AI游戏玩家、人机交互、机器学习、广告推荐 互联网:互联网经济、共享经济 分布式 系统:
15、区块链 人工智能与博弈论相互结合,形成了两个主要研究方向 博弈 策略的求解 博弈规则的设计 博弈策略求解 动机 博弈论提供了许多问题的数学模型 纳什 定理确定了博弈过程问题存在解 人工智能的方法可用来求解均衡局面或者最优策略 主要问题 如何高效求解博弈参与者的策略以及博弈的均衡局势? 应用领域 大规模搜索空间的问题求解:围棋 非完全 信息博弈问题求解:德州扑克 网络对战游戏智能: Dota、星球大战 动态博弈的均衡解:厂家竞争、信息安全 遗憾最小化算法( Regret Minimization): 若干定义 假设一共有 个玩家。玩家 所采用的策略表示为 。 对于每个信息集 , : 0,1是在动
16、作集 上的概率分布函数。玩家 的策略空间用 表示。 一个策略组包含所有玩家策略 , 用 = (1,2,|)。 表示 中除了 之外的策略(即除去玩家 所采用的策略 ) 在博弈对决中,不同玩家在不同时刻会采取相应策略 以及行动 。策略 下对应的行动序列 发生的概率表示为 () 。于是, = () , 这里 表示玩家 使用策略 促使行动序列 发生的概率。除玩家 以外,其他 玩家通过各自策略促使行动序列 发生的 概率可表示为: = () 对于每个玩家 , : 表示 玩家 的收益函数,即在到达终止序列集合 中某个终止序列时,玩家 所得到的收益。 玩家 在给定策略 下所能得到的期望收益可如下计算: = (
17、)() 遗憾最小化 算法: 最佳反应策略与纳什 均衡 玩家 对于所有其他玩家的策略组 的 最佳反应策略 满足如下条件: , max(,) 在策略组 中,如果每个玩家的策略相对于其他玩家的策略而言都是最佳反应策略,那么策略组 就是一个 纳什均衡 ( Nash equilibrium)策略。 纳什均衡: 策略组 = (1,2,| )是纳什均衡当且仅当对每个玩家 ,满足如下条件: max(1,2,| ) 遗憾最小化 算法: 纳什 均衡与 平均遗憾 值 纳什均衡: 对于给定的正实数 ,策略组 是 纳什均衡当且仅当对于每个玩家 ,满足如下条件: + max(,) 平均 遗憾 值 (average ove
18、rall regret):假设博弈能够重复地进行(如围棋等),令第 次博弈时的策略组为 ,若博弈已经进行了 M次,则这 M次博弈对于玩家 的平均遗憾值定义为: =1max(=1, )() 遗憾最小化 算法: 策略选择 遗憾最小化算法是一种根据过去博弈中的遗憾程度来决定将来动作选择的方法 在博弈中, 玩家 在第 轮次(每一轮表示一次博弈完成)采取策略 的遗憾值定义如下(累加遗憾): () = ( , )=1 通常遗憾值为负数的策略被认为不能提升下一时刻收益,所以这里考虑的遗憾值均为正数或 0 计算得到玩家 在第 轮次 采取策略 的遗憾 值后 ,在第 +1轮次玩家 选择策略 的概率如下(悔值越大、
19、越选择,即亡羊补牢) = ()()所有 可选择策略 假设两个玩家 A和 B进行石头 -剪刀 -布( Rock-Paper-Scissors, RPS)的游戏,获胜玩家收益为 1分,失败玩家收益为 -1分,平局则两个玩家收益均为零分 第一局时,若玩家 A出石头( R),玩家 B出布( P),则此时玩家 A的收益 , = 1,玩家 B的收益为 , = 1 对于玩家 A来说,在玩家 B出布( P)这个策略情况下,如果 玩家 A选择出布( P)或者剪刀( S),则玩家 A对应的收益值 , = 0或者 A , = 1 所以第一局之后,玩家 A没有出布的遗憾值为 , , = 0 1 =1, 没有出剪刀的遗
20、憾值为 , , = 1 1 = 2 所以在第二局中,玩家 A选择石头、剪刀和布这三个策略的概率分别为 0、 2/3、 1/3。 因此,玩家 A趋向于在第二局中选择出剪刀 这个 策略 遗憾最小化 算法 : 石头 -剪刀 -布 的例子 在第一轮中玩家 A选择石头和玩家 B选择布、在第二局中玩家 A选择剪刀和玩家 B选择石头情况下,则玩家 A每一轮遗憾值及第二轮后的累加遗憾取值如下: 从上表可知, 在第三局时,玩家 A选择石头、剪刀和布的概率分别为 1/6、 2/6、 3/6 在实际使用中,可以通过多次模拟迭代累加遗憾值找到每个玩家在每一轮次的最优策略 但是当博弈状态空间呈指数增长时,对一个规模巨大
21、的博弈树无法采用最小遗憾算法 每轮悔值 策略 石头 剪刀 布 第一轮悔值 0 2 1 第 二 轮悔值 1 0 2 2 1 2 3 遗憾最小化 算法 : 石头 -剪刀 -布 的例子 , 玩家 每一轮悔值计算公式: 提纲 1、博弈相关概念 2、遗憾最小化算法 3、虚拟遗憾最小化算法 4、人工智能安全 虚拟 遗憾 最小化算法 ( Counterfactual Regret Minimization) 如果不能遍历计算所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算 假设 : 集合 是 博弈 中所有玩家 所能采用的行为 集(如在石头 -剪刀 -布游戏中出石头、出剪刀或出布三种行为) 为
22、信息集,包含了博弈的规则以及玩家采取的历史行动,在信息集 下所能采取的行为集合记为 玩家 在 第 轮次采取 的行动 ()反映了其 在 该轮次所采取的策略 。包含玩家 在内的所有 玩家在 第 轮次采取 的行动 ()构成了一组策略组合 。 在 信息集 下采取行动 所反映的策略记 为 。 虚拟 遗憾 最小化 算法 在第 轮次所有玩家采取的行动是一条序列,记为 。采取某个策略 计算行动序列 出现的概率记为 () 每个信息集 发生的概率 () = () ,表示所有能够到达该信息集的行动序列的概率累加。 给定博弈的终结 局势 ,玩家 在游戏结束后的收益 记作 () 在 策略组合 下 ,施加博弈行动序列 后
23、达到最终局势 的 概率为 (,) 当采取策略 时,其所对应的行动序列 的虚拟价值( Counterfactual Value)如下计算 (注:行动 序列 未能使博弈进入终结局势 ): (,) = ()(,)() 玩家 采取行动 所得到的虚拟遗憾值: (,) = , (,) 行动序列 所对应的信息集 遗憾值为: (,) = (,) 玩家 在第 轮次采取 行动 的遗憾值为: (,) = =1(,) 虚拟 遗憾 最小化 算法 同样,对于遗憾值为负数的情况,我们不予考虑,记: ,+(,) = max (,),0 在 +1轮次, 玩家 选择 行动 的概率计算如下: +1(,) =,+(,),+(,)()
24、if ,+()(,) 01|()| otherwise 玩家 根据遗憾值大小来选择下一时刻行为,如果遗憾值为负数,则随机挑选一种行为进行博弈 虚拟 遗憾 最小化 算法 库恩扑克( Kunhs pocker ) 库恩 扑克是最简单的限注扑克游戏,由两名玩家进行游戏博弈,牌值只有 1,2和 3三种情况 每 轮每位玩家各持一张手牌,根据各自判断来决定加定额赌注 游戏没有公共牌,摊牌阶段比较未弃牌玩家的底牌大小,底牌牌值最大的玩家即为胜者 库恩扑克( Kunhs pocker ) 游戏规则 玩家 A 玩家 B 玩家 A 结果 过牌 过牌 牌值大的玩家 +1 加注 加注 牌值大的玩家 +2 过牌 加注 过牌 玩家 B +1 过牌 加注 加注 牌值大的玩家 +2 加注 过牌 玩家 A +1