1、评委一评分,签名及备注队号:10302评委三评分,签名及备注评委二评分,签名及备注选题:A:2048评委四评分,签名及备注题目:基于 Monte Carlo 局面评估和 UCT 博弈树搜索的 2048摘要本文首先提出 Random-Max-Trees 算法来实现人工智能的 2048。此算法是通过静态评估函数来求得最优解。但是在实现的过程中出现冗余的现象,当移动方格步数过多的时候,好的评估函数却很难找到,使 Random-Max-Trees 算法效率降低。随后本论文采用 Alpha-Beta 算法,是前者的一种改进,在搜索结点数一样的情况下,可以使搜索深度达到原来的两倍。在实现的过程中发现 Al
2、pha-Beta 严重依赖于着法的寻找顺序。只有当程序挑最好的子节来当先搜索,才会接近于实际分枝因子的平方根,也是该算法最好的状态。但是在首先搜索最坏的子节时,Beta 截断不会发生,此时该算法就如同 Random-Max-Trees 一样,效率非常低,也失去 Alpha-Beta 的优势,也无法试图通过面的搜索来弥补策略上的不足。本文采用蒙特卡洛评估对以上模型进行了改进。它通过对当前局面下的每个的可选点进行大量的模拟来得出相应的胜负的统计特性,在简单情况下,胜率较高的点就可以认为是较好的点予以选择。由于 UCT 算法能不断根据之前的结果调整策略,选择优先评估哪一个可下点。所以在蒙特卡洛德基础
3、上运用 UCT算法提高收敛速度。可求得概率为 100%。对于第二问,采用归纳法以及概率论量化数值,当方格为 时,最大能4达到 ,如果将方格扩展到 N个,能达到的最大数为 。最后对模24+1=307 2n+1型进行评价。 本论文算法是采用 JAVA、C+以及 MATLAB 实现。关键字:Random-Max-Trees;Alpha-beta;Monte Carlo;UTC;概率论基于 Monte Carlo局面评估和 UCT博弈树搜索的 20481问题提出2048 是最近一款非常火爆的益智游戏,很多网友自称“一旦玩上它就根本停不下来” 。2048 游戏的规则很简单:每次控制所有方块向同一个方向运
4、动,两个相同数字的方块撞在一起之后合并成为他们的和,每次操作之后会在空白的方格处随机生成一个 2 或者 4,最终得到一个“2048”的方块就算胜利了。如果 16 个格子全部填满并且相邻的格子都不相同也就是无法移动的话,那么游戏就会结束。本文将建立数学模型,解答下列问题:1. 如何才能达到 2048,给出一个通用的模型,并采用完成游戏所需移动次数和成功概率两个指标来验证模型的有效性;2. 得到 2048 之后,游戏还可以继续玩,那么最大能达到多大的数值呢?如果将方格扩展到 N*N 个,能达到的最大数是多少?2问题分析本文首先基于 Random-Max-Trees 和 Alpha-beta 剪枝算
5、法来实现人工智能(AI)的 2048。本文认为可以把 2048 游戏看成是一场人类和计算机的博弈,人类控制所有方块向同一个方向移动并合并,计算机则在空白处随机放置一个“2”或“4”的方块。但是在 AI 的环境下,博弈双方都是计算机,双方都不理性,所以在 AI 的环境下,选用更加保守的 Random-Max-Trees 博弈策略比选用Mini-Max-Tree 的更加适当。如果把当前格局作为博弈树的父节点,把下一步所有可能的走法所造成的格局作为树的一个子节点,如果继续使用 Random-Max-Trees 算法,则此算法的效率很不理想,会造成许多不必要的步骤。因为每一个子节后面还有子节,可能的情
6、况很多循环往复,直到 2048 为止,但是并不是所有的节点都必须搜索完毕,有些节点是不必要的。为了解决这一问题,本文可以采用 Alpha-beta 剪枝算法。 对于第一问为实现 2048 的这种情况,蒙特卡洛评估是一个很好的解决方法,它通过对当前局面下的每个的可选点进行大量的模拟来得出相应的胜负的统计特性,在简单情况下,胜率较高的点就可以认为是较好的点予以选择。UCT 在蒙特卡洛评估算法的基础上很大的提高了收敛速度,UCT 能不断根据之前的结果调整策略,选择优先评估哪一个可下点,基于此策略从而也可以得到第二问的答案。对于第二问,如何计算出最大值是有条件的,对有随机值的问题,我们需要量化数值,如
7、果考虑随机那么就有不确定性,这会使我们无法接近最大值,所以在最开始就直接规定好,取 4 来作为加数,因为这是累计的题目,4 比 2 大,所以在有限的范围内,4 的总和肯定比 2 的总和大。规定好数值,开始计算最大值。最大值是 2 的倍数,通过玩 2048 已经知道相同的数可以合并形成更大的数,合并一个数需要有两个数的空间,通过这一规律我们可以知道当格子都排满的情况下,还是有可能进行数字的合并的,如果可以进行合并的话,那就又增加一个4,这时又是满格的情况,如果合并过的数再次进行和并又再次产生一个空位,那么以此类推用过可以产生 15 次空格,那么,这 15 有同时增加了 15 次 4,通过这些新加
8、入的 4,数值会进一步的增加。3模型的假设1) Alpha-Beta 有比 Minimax 搜索算法更加准确的评估函数才能保证那些优秀的节点不被过早的剪枝;2) 博弈树较小而可以被完全展开,博弈树叶子节点的价值可以通过胜负关系来确定,搜索的结果就是最优解;3) 博弈树很大而不能被完全展开时,博弈树叶子节点的价值可以通过静态评估函数计算出来,当静态评估函数较为准确时,就可以得到相应的近似最优解;4符号说明D:2048 中块数的最大数值N:无数字块数I(x): minimax 的最小值Fi(x):定义在 上的实值函数nR:第 台机器到目前为止的平均收益jX:第 台机器被测试的次数Tnj:所有机器目
9、前被测试的总次数5型建立与求解5.1. 问题一5.1.1 Random-Max-Trees算法 Random-Max-Trees 是从 Minimax 算法改变而来。只是加了一个条件,双方都是非理性的条件下,本质还是 Minimax。Minimax 的定义 (x)=iIfFx(1.1)mina,niximFR是定义在 上的实值函数。它等价于非线性优化问题,i12,.ifxR(1.2)min,z(1.3).st0,ifx1,2.im可用求解约束问题的算法求解问题(1.2)-(1.3),从而得到 Minimax 问题的解。假设在博弈过程中,对方总是选择使得博弈值最小的移动,我方则会选择博弈值最大的
10、移动,对方称为 Min,则我方称为 Max,且都是非理性的。由于博弈双方是交替移动的,所以博弈树的结点及其父结点分属于我方与对方其中的一个,其种类分属 Max 和 Min。博弈树上的每个结点对应于一个深度,叶结点的深度为0。因此,在任意的结点 node,对博弈双方均最优的博弈值为 (node)inMax(ode)=Miax(s)seSucrsEvaltAXIN由此,很自然地得出 Random-Max-Trees 算法,用来求出满足一些条件的二人零和博弈问题的博弈值。5.1.2. Alpha-beta剪枝算法Alpha-beta 算法是对 Minimax 算法的优化,运行效率比 Minimax
11、更高,自然也比 Random-Max-Trees 快。 Random-Max-Trees 算法在检查整个博弈树,效率非常低的,当步数越来越多的时候,每次搜索更深一层时,树的大小就呈指数式增长,工作量越来越大,存在着 2 种明显的冗余现象,自然降低了搜索的效率。第1 种现象是极大值冗余。在图 1-a 中,节点 A 的值应是节点 B 和节点 C 的值中之较大者。现在已知节点 B 的值大于节点 D 的值。由于节点 C 的值应是它的诸子节点的值中之极小者,此极小值一定小于等于节点 D 的值,因此亦一定小于节点 B的值,这表明,继续搜索节点 C 的其他诸子节点 E, F,已没有意义,它们不能做任何贡献,
12、于是把以节点 C 为根的子树全部剪去。这种优化称为 Alpha 剪枝。在图 1-b 是与极大值冗余对偶的现象,称为极小值冗余。节点 A 的值应是节点 B和节点 C 的值中之较小者。现在已知节点 B 的值小于节点 D 的值。由于节点 C 的值应是它的诸子节点的值中之极大者,此极大值一定大于等于节点 D 的值,因此也大于节点 B 的值,这表明,继续搜索节点 C 的其他诸子节点已没有意义,并可以把以节点 C 为根的子树全部剪去,这种优化称为 Beta 剪枝。而 Alpha-beta 算法是在众多路线里尽可能选择最好的线路。要想通过检查搜索树的前面几层,并且在叶子结点上用启发式的评价,那么做尽可能深的
13、搜索是很重要的。下面通过比较来进一步了解 Random-Max-Trees 算法与 Alpha-beta 剪枝算法的关系。A. 对于一个 Min 节点,若能估计出其倒推值的上确界 Beta,并且这个Beta 值不大于 Min 的父节点(Max 节点)的估计倒推值的下确界 Alpha,即 Alpha Beta,则就不必再扩展该 Min 节点的其余子节点了,因为这些节点的估值对 Min 父节点的倒推值已无任何影响了,这一过程称为Alpha 剪枝。B. 对于一个 Max 节点,若能估计出其倒推值的下确界 Alpha,并且这个Alpha 值不小于 Max 的父节点 (Min 节点)的估计倒推值的上确界
14、 Beta,即 Alpha Beta,则就不必再扩展该 Max 节点的其余子节点了,因为这些节点的估值对 Max 父节点的倒推值已无任何影响了。这一过程称为Beta 剪枝。C. 一个 Max 节点的 Alpha 值等于其后继节点当前最大的最终倒推值,一个 Min 节点的 Beta 值等于其后继节点当前最小的最终倒推值图 1-a 图 1-b采用 Alpha-beta 剪枝,可以在相同时间内加大 Random-Max-Trees 的搜索深度,因此可以获得更好的效果。5.1.3. 问题一模型的建立与求解1) 本论文对 2048 游戏进行抽象化表述:我方:(即游戏玩家)每次可以选择上、下、左、右四个行
15、棋策略中的一种(某些格局会少于四种,因为有些方向不可走) 。行棋后方块按照既定逻辑移动及合并,格局转换完成。对方:(计算机)在当前任意空格子里放置一个方块,方块的数值可以是“2”或“4” 。放置新方块后,格局转换完成。胜利条件:出现某个方块的数值为“2048” 。失败条件:格子全满,且无法向四个方向中任何一个方向移动(均不能触发合并) 。这样分析,于是 2048 游戏就可化成建立一个模型解决信息对称的双人对弈问题。2) 评价当前格局的价值在 2048 中,除了终局外,中间格局并无非常明显的价值评价指标,因此需要用一些启发式的指标来评价格局。那些分数高的“好”格局是容易引向胜利的格局,而分低的“
16、坏”格局是容易引向失败的格局。本文采用了如下几个启发式指标,如下:解释:(1)单调性单调性指方块从左到右、从上到下均遵从递增或递减。一般来说,越单调的格局越好。(2)平滑性是指每个方块与其直接相邻方块数值的差,其中差越小越平滑。例如 2 旁边是 4 就比 2 旁边是 128 平滑。一般认为越平滑的格局越好。(3)空格数这个很好理解,因为一般来说,空格子越少对玩家越不利。所以我们认为空格越多的格局越好。(4)孤立空格数这个指标评价空格被分开的程度,空格越分散则格局越差。(5)对方选择的剪枝在这个程序中,除了采用 Alpha-beta 剪枝外,在 Min 节点还采用了另一种剪枝,即只考虑对方走出让
17、格局最差的那一步(而实际 2048 中计算机的选择是随机的) ,而不是搜索全部对方可能的走法。这是因为对方所有可能的选择为“空格数2” ,如果全部搜索的话会严重限制搜索深度。3.可以找实验玩家获得数据,再进行因子分析,根据这五种因素对到达 2048步数的影响确定权重。5.1.4. 问题一模型的改进5.1.4.1蒙特卡罗算法蒙特卡罗(Monte Carlo)方法也称为随机模拟方法,是一种最优有限的搜索方法。它的基本思想是,为了求解数学、物理、工程技术以及生产管理等方面的问题,首先建立一个概率模型或随机过程,使它的参数等于问题的解:然后通过对模型或过程的观察或抽样试验来计算所求参数的统计特征,最后
18、给出所求解的近似值。在应用蒙特卡罗方法解决 2048 问题的过程中,大体上有如下几个内容:1) 对求解的问题建立简单而又便于实现的概率统计模型,使所求的解恰好是所建立模型的概率分布或数学期望。2) 根据概率统计模型的特点和计算实践的需要,尽量改进模型,以便减小方差和降低费用,提高计算效率。孤立空格数字平滑性单调性 空格数对方选择的剪枝3) 建立对随机变量的抽样方法,其中包括建立产生伪随机数的方法和建立对所遇到的分布产生随机变量的随机抽样方法。4) 给出获得所求解的统计估计值及其方差或标准误差的方法。5.1.4.2 UCT算法(UCB for treesearch)UCT 又名 UCB for
19、Tree Search,是上限信心界(Upper confidence bound,UCB)在 Tree Search 上的应用。UCB 策略是为了解决相互独立且收益率不同的因子,获得尽可能大的回报的最佳策略。大致上来说,每一次操作 UCB 会根据每一个因子目前的平均收益值,加上一个额外的参数,得出本次操作此因子的 UCB 值,然后根据此值,挑选出拥有最大 UCB 值的因子,作为本次操作所要选择的因子。其中,所谓额外参数,会随每一台因子被选择的次数增加而相对减少,其目的在于让选择因子时,不过分拘泥于旧有的表现,而可以适度地探索其他因子。UCB 公式的一般型式 :ScoreExplitaonxp
20、lration在实践中,检定效果较好的一个 UCB 公式表示如下: 2log(n)jjXT是第 台机器到目前为止的平均收益, 是第 台机器被测试的次数,jXj是所有机器目前被测试的总次数。nTree Search 开始时,UCT 会建立一棵 Tree,然后:1) 从根节点开始2) 利用 UCB 公式计算每个子节点的 UCB 值,选择 UCB 值最高的子节点3) 若此子节点并非叶节点(从未拜访过的节点),则由此节点开始,重复(2)4) 直到遇到叶节点,则计算叶节点的收益值,并依此更新根节点到此一节点路径上的所有收益值5) 由(1)开始重复,直到时间结束,或达到某一预设次数6) 由根节点的所有子节
21、点中,选择平均收益值最高者,作为最佳节点,此一节点,就是 UCT 的结果。5.1.4.3 改进的模型其中 代表第 个因子, 表示第 个因子目前被访问的次数, 表示第 个iaiivi iwi因子目前获胜的次数,其中 ,我们可以知道, 并且 ,这是因1,kiivv为获胜次数永远受到访问次数的限制。先用 表示到目前为止所有手臂被iv访问的次数和, 表示到目前为所有因子的获胜次数和。显然地,如果iw, ,则 ,因此有2jv2ij jVv2ijVv当利用 UCT 算法确定究竟哪一个可下点会变成最终的落子点时,总是会选择那个被访问最大次数的可下点。所以, 利用绝对剪枝条件时,1,.jkij被访问最多次数的
22、节点绝对不可能满足剪枝条件,这样就保证在使用绝对剪枝条件后,根据访问次数做出的最终决策结果将和使用原始的 UCT 方法保持一致。如果存在明显好于其他节点的可下点,总被访问次数可能在没有达到我们预期的总访问次数时就已经有节点的访问次数突破预计访问次数的一半。因此,在加入绝对剪枝条件后,可以提前终止模拟,达到节省时间的作用。5.1.4.4 模型的验证分析:移动次数和成功概率两个指标来验证模型的有效性,需要单独提出移动次数和成功概率进行分析,移动次数和成功概率可以通过程序进行实践,程序内部含有移动次数的统计和制定的目标既是移动数值达到 2048,自动移至 2048是用到了 AI,自动的进行实践,AI
23、 能够自动且合理的规避无法移至 2048 的可能,使达到 2048 成为可能。证明:移动次数是通过 AI 来进行统计,AI 会找到最合理的路径,虽然不会是最短的路径,却是最合理的路径。static inline board_t execute_move(int move, board_t board) switch(move) case 0: /* up*/ return execute_move_0(board);case 1: /* down*/return execute_move_1(board);case 2: /*left*/return execute_move_2(board)
24、;case 3: /*right*/return execute_move_3(board);default:return 0ULL;这是 AI 的方向移动,switch 选择方向,move 由别的函数赋值来对 AI 进行路线的选择,从中找到最合理的路线。最合理的路线是表示能够在成功合并成 2048 的前提下分数最高,且路径也少,通过程序的运行能够输出结果:可以从上图的结果中看到,当玩到 2048 时一共移动了 11700 步,分数是316700,但是这个结果并不是唯一的,因为每一次开始的数值都是不一样的,那么 AI 对于不同的情况给出的操作也是不同的,所以这也是答案不唯一的原因。但是通过多次
25、的模拟总结,发现移动的次数是离散的,散点状的分布在 10000 到15000 之间,这个我们可以用函数分部的方式来进行分析。AI 能够 100%的运行并成功达到 2048,所以这个成功率是 100%的。5.2问题二模型的建立与求解本文发现2048中每一格都是2n 的整数,通过相同2n 的数块结合形成2n+1的数块,同时在移动的过程中产生新的数块,包括21和22两种数块,且是随机均等几率的。形成一个22需要2个21,且需要两个数块来形成一个数块。形成一个23需要2个22,如果都是22的情况则需要2个数块形成一个数块,同理如给出1个22的情况和2个21的情况同时存在时,需要三个数块形成一个数块。同理可知24,25直至2n 次,可以用2个2n-1来形成。假设在16格中存在最大数 X,且环境最为理想则假设 X=2n形成一个2n 两个2n-1,作为最理想的情况来求解