1、2018/4/22,1,第四章 变异函数和拟合模型,资源与环境学院 杨勇,2018/4/22,2,华中农业大学 资源与环境学院,目录,半方差函数影响半方差函数的因素变异函数的理论拟合模型变异函数(半方差函数)r(h)是地统计学的基石,2018/4/22,3,华中农业大学 资源与环境学院,4.1 半方差函数半方差云图,表示两个实测值之间差的一半,称为半方差值,一般意义上,半方差值会随着两点间距离的加大而加大,这是因为距离相近的样品点的性质较为相似。,根据点对之间的空间滞后距离h将所有半方差值绘制成的散点图称为半方差云图(如下图,红色圈内为特异值),2018/4/22,4,华中农业大学 资源与环境
2、学院,4.1 半方差函数经验半方差函数,在实践中,一般是将滞后距(h)划分为不同的级别,计算每个滞后级别上的平均半方差值,进而得到经验半方差值和经验半方差图来分析数据的空间关系。,表示滞后级别,更为常见的表示方法为:,2018/4/22,5,华中农业大学 资源与环境学院,一般地,在实际计算时,假设步长为lag,当前滞后级别为n(n为正整数),则h=n*lag,应该这样处理:(1)研究区所有点,找到点对(Pi,Pj),其符合条件:(n-1)*lagdis (Pi,Pj)=n*lag,它们之间的距离记为DISi(2)计算z(pi)-z(pj)2,记为Si.(3)设找到N(h)个这样的点对,计算平均
3、距离(4)计算 ,为n滞后级别上的经验半方差值。(5)将各个级别的(havg,r*(havg)),绘制在图上,形成经验半方差图,2018/4/22,6,华中农业大学 资源与环境学院,经验半方差图,2018/4/22,7,华中农业大学 资源与环境学院,课堂练习,假设给出某地土壤元素含量采样数据,其格式为(x,y,k),共N个采样点,其中,x和y分别表示采样点的横纵坐标值,k为实验室测得的元素含量值,步长为h,试给出相应的程序步骤,计算该区域内土壤元素的经验半方差图。(需计算的最大滞后据为样点间最大距离的一半),2018/4/22,8,华中农业大学 资源与环境学院,2018/4/22,9,华中农业
4、大学 资源与环境学院,变异函数的一些现象,1、跃迁现象,当h超过某一个范围,例如变程a,变异函数r(h)不再增大,而是在一个极限值r()附近摆动,这种现象称为“跃迁现象”,2018/4/22,10,华中农业大学 资源与环境学院,变异函数的一些现象,2、块金效应,当h=0时,变异函数r(h)不等于0,而是等于1个常数C0,这种现象称为“块金效应”,2018/4/22,11,华中农业大学 资源与环境学院,变异函数的一些现象,3、各向异性,2018/4/22,12,华中农业大学 资源与环境学院,4.2 影响半方差函数的因素,一、统计方面1、统计分布:特异值的影响,极大或极小值越靠近区域中间,影响越大
5、。采样数据的不均匀分布(h-散点图)。2、屏蔽:特异值可能是错误的值,也可能是真实的值,可区分对待。如果检查发现时错误。的值,必须去除。但如果是真实的值,可以去除,也可以保留(如污染区的污染物含量值)3、偏斜:数据的偏态分布,也会造成方差的不稳定,异常值对变异函数的影响,2018/4/22,13,华中农业大学 资源与环境学院,4.2 影响半方差函数的因素,二、样品大小和设计1、更多的样品能增强经验半方差值的稳定性,但考虑到工作量和资金,实际取样不可能无限取点,一般要求在变程a以内,各距离上的点对数据不应小于20对,有的学者认为不应小于30对。2、在采样的设计上,一般来讲,规则格网采样更有助于后
6、续的分析。,2018/4/22,14,华中农业大学 资源与环境学院,4.2 影响半方差函数的因素,三、采样间距:应大致地了解变异的空间尺度以选择一个合适的采样密度。(1)对于完全未知的领域,不知道变异的尺度或模式,应预采样,找到合适的采样间距(2)若先前的采样间距造成经验半方差函数呈纯块金效应,没有明显的空间自相关性,则先前的采样间距过大,应缩小。(3)若依先前的采样间距得到的半方差函数有明显的结构,但研究区内样点分布不均匀,则可进一步优化其分布。对于第(1)(2)情况,可以采取套合采样解决。,2018/4/22,15,华中农业大学 资源与环境学院,4.3 变异函数的理论拟合模型,理论变异函数
7、用来拟合一些列经验变异函数值,供后续进行插值估计时使用。选用理论变异函数模型是,要根据经验半方差图的形状来选取合适的模型,2018/4/22,16,华中农业大学 资源与环境学院,4.3 变异函数的理论拟合模型,变异函数在原点处的形状,2018/4/22,17,华中农业大学 资源与环境学院,4.3 变异函数的理论拟合模型,变异函数的理论模型:有基台值模型无基台值模型,2018/4/22,18,华中农业大学 资源与环境学院,有基台值模型球状模型,C0:块金常数C0+C :基台值C:拱高a:变程应用最广的模型,2018/4/22,19,华中农业大学 资源与环境学院,有基台值模型指数模型,C0:块金常
8、数C0+C :基台值C:拱高3a:变程当C0=0,C=1时,称为标准指数函数模型,2018/4/22,20,华中农业大学 资源与环境学院,有基台值模型高斯模型,C0:块金常数C0+C :基台值C:拱高 :变程当C0=0,C=1时,称为标准高斯函数模型,2018/4/22,21,华中农业大学 资源与环境学院,三种常用模型比较,0.95,2018/4/22,22,华中农业大学 资源与环境学院,有基台值模型线性有基台值模型,C0:块金常数C0+C :基台值C:拱高A :常数,表示直线斜率当C0=0,C=1时,称为标准指数函数模型,2018/4/22,23,华中农业大学 资源与环境学院,有基台值模型纯
9、块金效应模型,2018/4/22,24,华中农业大学 资源与环境学院,无基台值模型线性无基台值模型,2018/4/22,25,华中农业大学 资源与环境学院,无基台值模型幂函数值模型,2018/4/22,26,华中农业大学 资源与环境学院,无基台值模型对数值模型,2018/4/22,27,华中农业大学 资源与环境学院,套合模型,在实际中,有时区域化随机变量Z(x)的变化相当复杂,往往包含各种尺度及各种层次的变化,反映在变异函数r(h)上,就是单一的模型结构不能将其合理表达,而是多层次的结构相互叠加在一起,地统计学上称为套合。所谓套合结构,就是把分别出现在不同距离h上或不同方向上同时起作用的变异性
10、组合起来,对全部有效的结构信息,作定量化的概括,以表示区域化变量的主要特征。,2018/4/22,28,华中农业大学 资源与环境学院,套合模型,土壤是一个不均与、具有高度空间异质性的复合体,它与土壤母质、气候、水文、地形和生物等因素有关,分析土壤空间变异的因素,可将其变异分为系统变异(土壤形成因素相互作用造成)和随机变异(可以观测到的,但与土壤形成印务无关且不能直接分析的)两大类。如由h分开的两个点x和x+h的土壤某一性质Z(x)和Z(x+h)。当h趋近于0时,可以认为两点间的差异完全是由取样和测定误差造成,当h逐步增大,如h1m,差异可能还要加上诸如水分等因素,当h100m时,在新的变异要考
11、虑地形的作用。,2018/4/22,29,华中农业大学 资源与环境学院,套合模型,当h一定时,变异函数r(h)应包含小于h的所有影响因素,因此,绝大多数变异函数都由下面两个变异函数组成: r(h)=r0(h)+r1(h),即一个代表纯块金方差,一个代表空间相关的方差。一般情况下,套合模型可以用放映各种不同尺度变化的多个变异函数之和表示,即:,ri(h)可以是相同的或不同的理论模型,2018/4/22,30,华中农业大学 资源与环境学院,套合模型,如,区域化变量Z(x)的变异性由r0(h),r1(h)和r2(h)组成,其中,2018/4/22,31,华中农业大学 资源与环境学院,套合模型,三者组
12、成的套合模型为:,2018/4/22,32,华中农业大学 资源与环境学院,套合模型,2018/4/22,33,华中农业大学 资源与环境学院,套合模型实例,某区域镍蕴藏量的变异函数计算值,2018/4/22,34,华中农业大学 资源与环境学院,套合模型实例,镍含量的变异函数曲线图,可以看出基台值在2.55左右对头两点作切线与纵坐标相交的交点就是块金值,大约在0.4左右0.4/2.55=0.156则大约16%的误差是随机现象造成的,而空间自相关现象造成的误差为84%,2018/4/22,35,华中农业大学 资源与环境学院,套合模型实例,C0=0.4 C1=1.55a1=14 C2=0.6a2=50
13、从图中可看出,理论值与实际值差异较大,尤其是在15到40m之间,因此,需进行反复修改,2018/4/22,36,华中农业大学 资源与环境学院,套合模型实例,C0=0.4 C1=1.15a1=12 C2=1a2=60从图中可看出,理论值与实际值差异拟合较好,2018/4/22,37,华中农业大学 资源与环境学院,变异函数理论模型的最优拟合,要使变异函数的理论模型真实地描述变量的变化规律,在建立理论模型过程中,要对模型进行最优拟合,即确定模型中各个参数的值。地统计学中,拟合过程主要包括三个步骤:确定曲线类型、参数最优估计、最优曲线的确定。,2018/4/22,38,华中农业大学 资源与环境学院,最
14、优拟合确定曲线类型,一般来讲,通过(h,r(h)散点图确定曲线的大致类型或初步类型,对这个大致的初步类型进行参数最优估计,确定是否为最优曲线。,2018/4/22,39,华中农业大学 资源与环境学院,最优拟合参数最优估计,变异函数的理论模型主要是曲线模型,将曲线模型经过适当的变换,化为线性模型,然后用最小二乘法原理求未知参数的估计。,2018/4/22,40,华中农业大学 资源与环境学院,最优拟合参数最优估计,上表式地统计学中常用的变异函数理论模型经过适当变换后,化为的线性模型,对于球状模型、指数模型和高斯模型,只讨论0h0,b10,b20,此时球状模型中的三个参数C0,C,a为,2018/4
15、/22,47,华中农业大学 资源与环境学院,(2)如b00,b20,此时b00,即C00,b10,b2=0,此时应分两种情况,一是b2=0,则线性模型变为y=b0+b1x1,为一元线性模型,不是球状模型,可按一元线性回归模型参数估计方法求解参数,另一是b20,这时对原始数据进行调整,增加或删除一些不重要的实际变异函数点的数据,反复多次调整,直到b20为止,然后代入下述公式中进行计算。,2018/4/22,49,华中农业大学 资源与环境学院,回归模型的检验,请回顾第二章的相关内容,2018/4/22,50,华中农业大学 资源与环境学院,实例 100个样方土壤表层有机质的含量,2018/4/22,
16、51,华中农业大学 资源与环境学院,四种变异函数理论模型拟合参数,线性有基台值模型的残差最小,决定系数最大,其次是球状模型,基台值基本相同,但线性有基台值模型的变程最小,其次是高斯模型和球状模型。块金值是指数模型的最小,其次是球状模型和线性有基台值模型。对这5个参数,显然最重要的是考虑决定系数R2的大小,其次是考虑残差RSS的大小,然后再考虑变程和块金值的大小,根据这个原则,选择球状模型作为本实例的变异函数理论模型是比较合适的,这个理论模型除了具有较高的拟合精度外,对变程内的模拟可以得到满意的结果。,2018/4/22,52,华中农业大学 资源与环境学院,2018/4/22,53,华中农业大学
17、 资源与环境学院,基于优化搜索算法的参数拟合,对于结构复杂的变异函数理论模型,特别是套合结构模型,参数复杂,难以用一般的通用方法求解出模型中的参数。但一些智能优化算法,如遗传算法、模拟退火算法、蚁群算法能够使用统一的流程求解出接近最优的参数。我们以遗传算法为例,介绍该算法在求解套合结构模型时的流程。,2018/4/22,54,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,1、多尺度套合模型的规范表达,2018/4/22,55,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,从上式可以看出,需求解的参数为2n+1个(因为第一个模型总是纯块金模型)。而
18、在实际计算时,可以令 ,这样方便从经验半方差图中识别 ci取值区间。并有以下约束:,2018/4/22,56,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,编码策略及初始群体产生假设需要顾及m(m=2n+1)个参数,每个参数的取值范围和估值精度分别是Umin,Umax和Qi,则将m个参数分别以L1,L2,Lm为长度进行二进制编码,其中则每条染色体长度为 ,染色体中每个参数编码对应的解码 公式为:,以这种编码方式随机产生T组染色体,2018/4/22,57,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,确定个体适应度评价函数,2018/4/22,5
19、8,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,遗传操作遗传算法主要包括3个基本算子,即选择、交叉和变异,为此,需确定交叉概率Pc和变异概率Pm,3个过程执行以后,将产生新一代种群,并记录适应度最高的染色体,选择轮盘赌选择法,如下表表示11个个体的适应度函数值、选择概率和累计概率。每一轮产生1个0,1随机数,将该随机数作为选择指针来确定被选个体。如随机数为0.81,则第6个个体被选中。,2018/4/22,59,华中农业大学 资源与环境学院,交叉算法,单点交叉:考虑如下两个11位变量的父个体父个体1: 0 1 1 1 0 0 1 1 0 1 0父个体2: 1 0 1
20、0 1 1 0 0 1 0 1交叉点位置为5,则交叉后两个子个体:子个体1: 0 1 1 1 0 1 0 0 1 0 1子个体2: 1 0 1 0 1 0 1 1 0 1 0,2018/4/22,60,华中农业大学 资源与环境学院,多点交叉,M个交叉位置,可无重复随机地选择,交叉点之间的变量间续地相互交换,产生新个体,但在第一位置与第一个个交叉点之间的一段不做交换:父个体1: 0 1 1 1 0 0 1 1 0 1 0父个体2: 1 0 1 0 1 1 0 0 1 0 1交叉点位置为:2 6 10 子个体1: 0 1 1 0 1 1 1 1 0 1 1子个体2: 1 0 1 1 0 0 0 0
21、 1 0 0,2018/4/22,61,华中农业大学 资源与环境学院,变异,二进制变异:变异意味着变量的翻转,如变异前:01110011010第4位发生了翻转变异后:01100011010,2018/4/22,62,华中农业大学 资源与环境学院,2018/4/22,63,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,计算实例,2018/4/22,64,华中农业大学 资源与环境学院,以区域内有机质和全钾为计算对象,设置步长为1000m,有效计算距离为60000m,得到经验半方差散点图,通过观察散点图,再对比各种理论模型特征,决定用一个球状模型作为有机质变异函数的理论模型,
22、而用球状模型加指数模型的套合结构作为全钾的变异函数理论模型,遗传算法参数设置为种群大小为100,交叉概率为0.25,变异概率为0.01,最大进化代数为100.,2018/4/22,65,华中农业大学 资源与环境学院,2018/4/22,66,华中农业大学 资源与环境学院,2018/4/22,67,华中农业大学 资源与环境学院,基于遗传算法的变异函数理论模型参数估计,2018/4/22,68,华中农业大学 资源与环境学院,课堂讨论题,1 如何改进上述算法,在用户不能确定理论变异函数类型时,能自动匹配模型类型并进行参数估计。2 如何在程序设计或功能界面上提高此算法的运行效率,使算法能够尽快找到较好的解。通过本章,谈谈对参数拟合问题有何启发,2018/4/22,69,华中农业大学 资源与环境学院,