1、第九章 DEM 的地形统计分析 297 第九章 DEM 的地形统计分析9.1 概 述地形统计分析是指应用统计方法对描述地形特征的各种可量化的因子或参数进行相关、回归、趋势面、聚类等统计分析,找出各因子或参数的变化规律和内在联系,并选择合适的因子或参数建立地学模型,从更深层次探讨地形演化及其空间变异规律。DEM 作为一种空间数据,它具有抽样性、概括性、多态性、不确定性、空间性等特征。正是 DEM 的这些特征决定了基于 DEM 的地形分析的条件和任务,也决定了选择哪些手段和方法来展开分析。而统计方法就是其中最有效的手段之一,因为统计就是对大量离散数据的收集、取样、整理、总结和分析,并最终得出有价值
2、和合理的结论。结合以往的研究不难发现,统计方法实际上贯穿了DEM 从建立、分析到应用的整个过程,而统计方法也是 DEM 研究中不可或缺的一种手段。需要指出的是,在研究其它可用数字形式(编码) 来描述的非地形要素的数字模型,如土壤类型、土地利用、地质、气候、温度、水资源、太阳辐射、降雨量、磁场、重力场分布、地区人口分布、工农业总产值、国民收入、教育程度等,即DTM 时,统计方法也是必不可少的。因为 DTM 是在数字高程模型所确定的平面位置上用相应的地形特征值取代高程而形成的,所以无论是 DEM 还是DTM,在研究方法上是一致的。这样,基于 DEM 的地形统计分析的概念就可以扩展到 DTM 这个更
3、广的范围了。统计本身是一门非常成熟的学科,包括了许多方法,从概率、抽样、假设检验,到相关分析、回归分析、趋势面分析等等,已经形成了一套非常完善的体系。基于 DEM 的地形统计分析利用各种统计方法探讨 DEM 数据本身及其派生地形因子的之间的相互关系,找出各因子或参数的变化规律和内在联系,是 DEM 的模型分析的前提和依据。从地形分析的内容和使用的统计方法来看,可大致分为以下几个部分:1. 原始 DEM 数据及派生地形因子基本统计特征的分析在地形分析中通常需要统计一些地形因子的最大值、最小值、极差、中值、总和、平均值、离差、方差、标准差、频数等基本统计量,必要时还需要对这些因子分组,以反映它们的
4、空间分布规律。如统计原始 DEM 的最大值、最小值、极差等可以反映高程的离散程度;平均坡度可反映地表的大致起伏状况;而方差、标准差等不但可以反映地形因子值的离散程度,也是相关、回归等分析必不可少的计算步骤;又如对坡度按一定规则分级,并用坡谱(第 11 章)的形式表现出来,能更直观地反映坡度的变化规律,并可在此基础上展开更深层次的地学研究。在分析中还常常需要做分区统计,即对一个大区域按某种规则划分为若干个小区数字高程模型及其地学分析的原理与应用 298 域,然后分别统计这些小区域内的地形因子的特征,从而探讨区域内部的差异性。2. 地形因子关联特征及空间分布规律的研究对地形因子分析的主要内容之一就
5、是查明因子之间的相互关系和内在联系,并选定合适的因子建立地学模型,利用这种模型对地形的发展与动态做出数值预测。相关分析可以研究两个或多个地形因子之间是否存在关系及关系的密切程度。而回归分析主要是研究变量之间是哪种形式的关系,并确定描述这种关系的函数,用以预测、控制等。相关是回归分析的前提,在回归分析之前必须明确变量之间的关系及其密切程度。因为相关和回归都是通过样本去推断总体,所以都需要对结果进行检验。图 9-1 在 DEM 建立与地形分析中用到的主要统计方法趋势面分析描述离散的空间数据的分布规律及其发展趋向。趋势面分析把地形要素的数值视为空间坐标的近似函数,用一次到高次多项式或周期函数(傅立叶
6、函数)对要素数值与地理坐标间的关系进行最优拟合,把趋势部分理解为区域性因素所引起的有规律的变化,而把误差部分归纳为局部性因素或误差所引起的变化。通过趋势值与实际观测值的离差的分析,对要素的分布规律作预测或分析。本章将按照基本统计量、相关分析、回归分析、系统聚类分析的次序介绍各DEM数据获取地形建模与内插基本数据特征分析地形因子特征分析空间叠置分析不确定性分析和表达DEM 可视化其它应用统计采样基本统计量相关分析回归分析趋势面分析系统聚类分析第九章 DEM 的地形统计分析 299 种统计方法在 DEM 地形分析中的应用。然而,在实际应用中各种方法并不是孤立的,在解决问题时通常需要综合应用多种分析
7、方法,如图 9.1 所示,在地形因子特征分析时,不仅要理解它的一些基本统计特征,还要应用相关、回归、趋势面、聚类等多种统计方法才能达到目的;在 DEM 不确定性分析和表达中用到了相关分析和趋势面分析两种方法。因此,在实际应用中,多种方法相互融合使用才能够较为全面地理解数据自身的特性及其空间特征。9.2 基本统计量DEM 数据的基本统计量有:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布特征等,它在 DEM 应用中有着重要的意义(见图 9.2) 。图 9.2 基本统计量集中趋势描述数据特征
8、的统计量离散程度分位数中位数平均数众数基本统计量其他统计量总和比率偏度分布形状峰度变差系数标准差平均离差方差极差最大值与最小值离差离差平方和比例种类数字高程模型及其地学分析的原理与应用 300 9.2.1 代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中位数、众数和分位数,它们都可以用来表示数据的分布位置和一般水平。表 9.1 中,列出了各统计量的含义以及在 DEM 地形分析中的应用。其中,表示数据集中的第 i 个变量,i=1,2,n。ix表 9.1 代表集中趋势的统计量的含义及作用统计量 含义 作用简单算术平均数n 个数据的总和与数据的总个数 n 的比值xi1算术平均数加权算术
9、平均数在求算术平均数时,考虑到数据集中的 n个值有时会含有不同的比重,对平均数的影响也就不同。所以用加权平均法来计算其算术平均数。权重 为 出现的频数,加权平均ifx数可以按下式计算: niiinff12.其中, inff.2算术平均数代表了数据集的平均水平,不受总体范围的影响,因此具有比较分析的作用,还可作为评价事物的客观标准。如地面平均坡度是描述地面复杂程度的重要指标,也是衡量该地区坡度情况的指标;要比较两个地区的坡度情况,也需要用这两个地区的平均坡度来比较,因为平均坡度能代表该地区坡度的一般水平,可以用来做比较分析。算术平均数还能用于求取地表切割深度。一定区域内的 DEM 数据的平均值与
10、最小高程值之差可以表示该区域的地表切割深度;另外求取离差、平均离差、离差平方和、方差、标准差、变差系数、偏度系数和峰度系数等时,要先求得算术平均数;算术平均数也可用于 DEM 平滑,嵌套平均值分级等计算中;加权平均数与算术平均数的应用是大致相同的,但加权平均数要考虑各值的不同权重。平均数几何平均数n 个数据的连乘积再开 n 次方所得的方根数 igxx.21几何平均数用于分析和研究平均改变率、平均增长率、平均定比等,还在偏相关系数里有应用。中位数若将数据值按大小顺序排列,位于中间的那个值就是中位数或称中值。当数据集中有奇数个数据时,数据按大小顺序排列,那么第 位数就是2n中位数;当有偶数个数据时
11、,中位数为第项与第 项的平均数。2n)1(众数众数是一个数据集中出现频数(次数)最多的一个数。它们都是频数(出现次数)分布位置的代表值,不受极端数值的影响,主要应用于分析和研究直方图。中位数在直方图上位居正中央,并把面积等分为左右两个部分,在累积直方图上,累积频率为 50%处所对应的特征值即是中位数,当一个数列变量值分布很偏时,以中位数表示它们的集中趋势比算术平均数更合理。众数在频数分布曲线上的位置正居最高点上,即曲线的峰值。分位数可用于数据分级。第九章 DEM 的地形统计分析 301 分位数将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。9.2.2 代表数据离散程度
12、的统计量平均数、中位数、众数和分位数在反映总体一般数量水平的同时,也掩盖了总体各单位的数量差异。所以,只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。代表数据离散程度的统计量包括最大值、最小值、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据越不稳定,代表性越差,用这些数据作试验的可靠性就越差;离散程度越小,则数据波动性小,用其作试验就相对可靠。 表 9.2 列出了表示离散程度各个统计量的含义
13、及在DEM 中的应用。表 9.2 代表离散程度的统计量及其作用统计量 含义 作用最大值与最小值 把数据从小到大排列,最前端的值就是最小值,最后一个就是最大值极差 一个数据集的最大值与最小值的差值称为极差,它表示这个数据集的取值范围通过最大最小值,可以了解数据的取值范围,求取极差、地表切割深度。在不同地区的山地,虽然它们的平均高程相同,但是只要它们的极差不同,仍然说明它们之间存在着差别极差主要用于求取一定区域内的地形起伏度。地形起伏度是指,在所指定的分析区域内所有栅格中最大高程与最小高程的差。离差离差表示各数值与其平均值的离散程度,其值等于某个数值与该数据集的平均值之差d = x -i平均离差平
14、均离差是把离差取决对值,然后求和,再除以变量个数 ni离差平方和离差平方和是把离差求平方,然后求和 ix2)(两个数据集的均值相同,但其离差可以有很大的差别,这说明这两个数据集与各自平均值的离散程度不同。平均离差和离差平方和可以克服 恒等于零的缺点,还可ix)(以把负数消除,只剩正值,这样更易于描述离散程度,而且离差平方和得到的结果较大,使离散程度更明显。离差平方和用于相关分析中求取相关系数在回归分析中,对回归方程进行显著性检验时,需要对原始数据进行离差平方和的分解,即把离差平方和分解为剩余平方和与回归平方和两部分,这两部分的比值可以反映回归方程的显著性。在趋势面分析中,对于趋势面的拟合程度可
15、以用离差平方和来检验,其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方和两部数字高程模型及其地学分析的原理与应用 302 分,回归平方和的值越大,表明拟合程度越高。方差方差是均方差的简称。它是以离差平方和除以变量个数而得到的22)(nxi标准差对方差进行开方,即为标准差2)(i 它们是表示一组数据对于平均值的离散程度的很重要的指标,为了应用上的方便,常对方差进行开方,即为标准差。 方差和标准差都可应用于相关分析、回归分析、正态分布检验等,还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。标准差还可用于数据分级。变差系数变差系数也称为离差系数或变异系数,是标准差与均值
16、的比值,以 表示vC100%xS式中 为变差系数,其值为百分率;S 是标准差;v为平均值。x 变差系数是用相对数的形式来刻画数据离散程度的指标,它可以用来衡量数据在时间与空间上的相对变化(波动)的程度。 变差系数在 DEM 中可求算地形高程变异系数。9.2.3 代表数据分布形态的统计量分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。表 9.3 代表分布形态的统计量及其作用统计量 含义 作用偏度偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。标准偏度系数(g )
17、:1g = 13)(6Sxni当 g 0 时,数据的分布情况如下图:1f(x) f(x) f(x)f(x) xf(x) f(x)偏度可以表示数据分布的不对称性,刻画出是向正的方向偏还是向负的方向偏(小于 或大于 )x峰度可以表示数据频数分布曲线峰形的相对高低程度或尖平程度。这两个指标主要用于分析数据的频率统计图以及评价正态分布性,当 g =0 且1g =0 时,数据是标准正态分布。偏度被2用来描述某些地形因子统计值的数据分布,如地面坡谱的偏度等。第九章 DEM 的地形统计分析 303 f(x)是数据分布的密度函数, 是数据的平均值x峰度峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量
18、。标准峰度系数 g 按下式计算:2g =2 )3(144iSxnf(x)是数据分布的密度函数, 是数据的平均值,S是标准差峰度在地面坡谱的研究中对于描述地面坡度的组合程度有重要意义。9.2.4 其它统计量表 9.4 其他统计量统计量 含义 作用总和 数据集中所有数据相加得到的值 总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总长度与总面积,可以获得该流域的沟壑密度。比率 两类物体或现象的数值之比比例 某类物体或现象的数值与其总数之比地表粗糙度即是以比率来表达的,它是地表单元的曲面面积与其在水平面上的投影面积之比。高程变异系数以某区域高程标准差和平均值的比值来表示。种类 一定区域内,出
19、现多少种不同的值。 例如在不同高程区域内植物、动物或其它研究对象的种类的统计。反映区域生物的多样性。9.3 分级统计分析分级是对数据进行加工处理的一种重要方法,通过分级可以把数据划分成不同的级别,体现数据自身的特征,为应用研究及专题制图提供基础。g 02g 25时, 则为料礓黄土善土、二色土等。5)土地利用及水保措施布设黄土丘陵沟壑区的地面由沟间地、沟坡地、沟底地三种不同的地貌部位组成。在这三个不同的地段内,水土流失的特点有较大差异,水土保持措施及土地利用方向也不一样。在沟缘线以上的沟间地,地势平坦,小于6的坡地,无强烈的侵蚀产生,可以作为农用旱地或牧草地;大于6的坡地,易产生强烈的侵蚀,需修
20、筑梯田或采用水保耕作法等水保措施。沟间地除用作农旱地以外,还常辟为果园。25是退耕还林还牧界限,25以上常为林牧用地, 严禁陡坡开垦。由于所修的梯田田面狭窄,修地费工量大,土地利用率低, 所以也不宜修梯田。沟坡地的地面坡度大部分在35以上,该类土地应以种草造林为主要利用方式,以保护边坡的稳定性,防止崩塌、错落等重力侵蚀发生。45是植树造林的上限,45以上可种植柠条等能在陡坡上生长的灌木,以保护陡壁。沟底地地势平坦, 坡度大部分在0-6范围内,沟底流水线两旁的台地和已成坝地,坡度在2左右,适宜于灌溉,离居民地较近的地段常用作菜地。沟底地为上部沟间地和沟坡地侵蚀、冲刷下来水土的聚积地,在一定的坡降
21、下将继续向下推移,所以在沟底地大于6的坡段,应采取水土保持措施。因此,综合坡度对多项农业生产的临界值, 确定了如下坡度分级系统:0-1-2-3-6-15-25-35-45-90。图9.4是对一典型黄土丘陵沟壑区采用以上五种分级指标体系分级得到的结果(a、b、c、d、e分别对应上述1、2、3、4、5类分级方法)。需要注意的是,在坡度的自定义分级中,分级是以临界坡度为依据的,这种方法应用目的明确, 但不容易反映出地面坡度的组合比例特征,地图制图效果往往不好。在实际应用中,也可以采用复合式坡度分级方法,即在不同的地貌部位,根据其主要应用目标不同而采用不同坡度分级指标体系。第九章 DEM 的地形统计分
22、析 307 土壤侵蚀分级 农田灌溉农机具作业 土壤研究土地利用及水保措施布设图 9.4 不同分级体系下坡度的分级结果2. 模式分级0 30 60Meters 300 600 m数字高程模型及其地学分析的原理与应用 308 模式分级就是指按固定模式进行分级,在固定模式中,级差由特定的算法自动设定。模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。以某地区的坡度为例来介绍各种分级方法,表 9.5 包含两个字段 VALUE 和COUNT,VALUE 代表每一个栅格的坡度值(已取整),COUNT 代表栅格个数。在分级时,要注意选择需要分级的字段。1) 等间距分级等间距分级是
23、一种最简单的分级方法,它按某个恒定间隔来对数据进行分级。假定数据集里有最大值和最小值,那么间距 D= 。分 级 数最 小 值最 大 值 表 9.5 某地区坡度数据统计表VALUE COUNT VALUE COUNT VALUE COUNT0 7411 20 4179 40 11531 24562 21 4174 41 9672 25385 22 4157 42 8233 12573 23 3912 43 6874 7125 24 3763 44 6185 5747 25 3575 45 4886 4709 26 3576 46 4067 4306 27 3355 47 2878 3912 28
24、 3131 48 2089 3744 29 2895 49 14610 3584 30 2820 50 9711 3678 31 2529 51 6612 3646 32 2356 52 3013 3580 33 2250 53 3614 3795 34 2024 54 1815 3894 35 1955 55 1116 3899 36 1799 56 617 4106 37 1581 57 418 4022 38 145919 4164 39 1296如图 9.5 所示分级图。等间距方法原理简单,但从直方图上可以看出,坡度在 0-9 之间的数据个数(栅格数)太多,在制图时占据了很大的幅面,影
25、响了制图效果,且各级之间数据个数的差别太大。可见,当数据具有均匀变化的分布特征时,等间距分级法就简明实用;若数据分布差异过大,将会以响制图与对统计结果的分析。第九章 DEM 的地形统计分析 309 01020304050601 2 3 4 5 6图 9.5 等间距分级结果图2) 分位数分级分位数分级是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位、六分位十分位。为此,要先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个值作为分级值。将坡度值按六分位数分级,如表 9.6 所示,可以使每一级别所含的数据个数尽量相等,但是由于只有 58 个样本(0-57) ,使得分位数分级
26、的优点没有体现出来,只有在样本很多的情况下,分位数分级才能使每一级别包含的数据个数几乎相等。所以,分位数分级能否使各级别所含数据个数相等,取决于数据集本身及分级的数目。例如,把原始坡度数据乘以 1000,再四舍五入,数据范围由 0-57.23 变为 0-57230,样本数变为 57231 个,对其进行六分位数分级,得到的分级结果如表 9.7 所示,各级所含的数据个数几乎相等,得到更理想的分类结果。表 9.6 58 个样本的分级结果 表 9.7 57231 个样本的分级结果级别 栅格数 占总栅格数的百分比0 - 2 57358 28.583 - 6 30154 15.037 - 14 30245
27、 15.0715 - 21 28438 14.1722 - 29 28364 14.1330 - 57 26120 13.02级别 栅格数 占总栅格数的百分比0 - 1567 33450 16.671568 - 3175 33452 16.673176 - 9735 33446 16.679736 - 18526 33447 16.6718527 - 2710333444 16.670 100 200Meters0 1000 2000 m占总栅格数的百分比数字高程模型及其地学分析的原理与应用 310 图 9.6 分别是 58 个样本与 57231 个样本的分级结果。分位数分级可以使每一级别的数
28、据个数接近一致,往往能产生较好的制图效果。051015202530351 2 3 4 5 6051015201 2 3 4 5 6图 9.6 分位数分级结果图 3) 等面积分级对于矢量数据而言,对每个多边形都可以求出其面积,将面积的值按大小顺序排列并累加,把累加面积分为相等的几段,作为分级范围,这样,每个级别中包含的样本数目虽然不同,但总面积基本一致。等面积方法使得每一级在图上占据的面积相等(或大致相等) 。这种方法的特点是在图面上只反映各级占有相同的面积,制图效果好,但是没有充分利用图面表示级间的差异。对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅27104 - 5723
29、033440 16.66占总栅格数的百分比占总栅格数的百分比0 100 200Meters0 1000 2000 m第九章 DEM 的地形统计分析 311 格分辨率得到,所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列,将数据个数累加,并把累加的个数分为相等的几段,这与分位数分级法得到的分级结果基本上是一致的。4) 标准差分级标准差可以反映各数据间的离散程度,按标准差分级,首先要保证数据的分布具有正态分布的规律,才可计算平均值 和标准差 Std.Dev,然后根据数据波x动情况划分等级。以算术平均值作为中间级别的一个分界点,以一倍标准差参与分级时其余分界点为:Std.Dev,
30、2Std.Dev, 3Std.Dev iStd.Dev。当然也可以采xx用 1/2 倍标准差参与分级,即1/2Std.Dev, 2/2Std.Dev, 3/2Std.Dev i/2Std.Dev 的形式,xx也可以用 1/3 倍标准差或 1/4 倍标准差。显然,分级数目是由数据本身所决定的,且对于同一数据集,采用一倍标准差时,分级数目最少,采用 1/4 倍标准差时,分级数目最多。以一倍标准差参与分级得到的结果如图 9.7 所示。0510152025303540451 2 3 4 5 6图 9.7 标准差分级结果图5) 自然裂点法分级任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的
31、对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图,都有助于找出数据的自然裂点。如果频率最低点与峰值构成一个近似正态分布曲线,可以把任意两个正态分布曲线交点作为分级界线。自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。 自然裂点法把坡度值分为 6 级的结果如图 9.8 所示。占总栅格数的百分比0 100 200Meters0 1000 2000 m数字高程模型及其地学分析的原理与应用 312 051015202530354045501 2 3 4 5
32、 6图 9.8 自然裂点法分级结果图6) 其他分级方法a. 有规律的不等间距分级这种方法与等间距分级法的区别在于它的间距是按一定规律变化的,而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种,每种又都可通过以下六种变化方法来确定各级的分级间隔:按某一恒定速率递增、按某一加速度递增、按某一减速度递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。b. 按嵌套平均值分级该方法先计算整个数据集的平均值,它将数据集分为两部分,每部分中再计算平均值,又各自把所有的那一部分分成两段,以此类推,就可以把数据集区分为 2 个等级,即 2 的几何级数。n 是计算中的平均值的嵌套序数,
33、用这种方法n只能得到偶数个级别,而不可能得到奇数个级别。c. 按面积正态分布分级按数据的大小排列,累加其面积,然后按正态分布的规则使中间级别所占的面积较大,往高端和低端的级别中所占的面积都依次减小,并由此来确定每级的分界线。显然,这种方法不仅使每个级别中样本的数目不相等,而且各级别的累加面积呈正态分布。总之,关于数据的统计分级的研究还很多,其目的都在于改善分级间隔的规则性、同级之中的同质性和不同级别之间的差异性等等。9.4 相关分析在 DEM 地形分析中,由于地貌的复杂性特征( Werner,1999) ,地形因子及其它变量间存在着各种不同的关系。一种是确定性关系,即函数关系,由于被研究对象或
34、多或少具有随机性的缘故,这种关系在研究中很少见。另一种是相关关系,这种关系中的一个变量不能精确地由其它变量的值计算出,但通过分析能看出两者之间的某种联系或趋势。为了找出这些变量之间的相关性和内在联系,占总栅格数的百分比0 100 200Meters0 1000 2000 m第九章 DEM 的地形统计分析 313 就需要对它们进行分析评价,并得出有用的结论,为下一步的研究提供有价值的参考。可见,相关分析在 DEM 地形分析中是必要的,也是重要的方法之一。在本节中,首先介绍变量自身的自相关问题,其次讨论两个或多个变量之间的相关性。9.4.1 空间自相关按照地理学第一定律,空间的事物总在不同程度上相
35、互联系与制约,而相近的事物之间的影响通常大于较远事物的影响。这种现象被称为空间自相关。如地貌在一定空间范围内是具有空间自相关性的,即相似的。DEM 地形分析为量化地貌的自相关性提供了很好的数据条件。DEM 是以栅格形式存储的,格网单元遵循明确定义的空间排列,它所描述的空间自相关可以定义为某一栅格单元的值与其相邻栅格值的趋近程度。空间自相关常用莫兰指数(I)和居耶瑞指数(c)来度量。1. 莫兰指数(Moran I):(9.1)niminimjjnij jiijxwxI1211 )()(其中 xi 、x j 分别为在位置 i、j 的测量值, 是在所有 i、j 位置点测量值的均值,n 为所有测量点的
36、数目;其中 wij 为赋予每一个栅格测量单元的权重。如果 j 是直接与 i 毗邻的四个单元之一, wij 为 1,如果是其它单元或单元为无数据(No Data) ,w ij 则为 0。若计算区域有相似的属性值, I 为正;若计算区域为不同数值,则为负;若属性值随机排列,则趋于 0。2. 局耶瑞指数(Geary c):(9.2)nminimjijnij jiijxw12112)()()(式(2)的符号注释与 I 相同。不同的是,莫兰指数在计算中使用协方差,而局耶瑞使用方差 。局耶瑞指数取 1 作为随机模型,)(mji xx 2)(mix小于 1 为正相关模式,大于 1 为负相关模式。Wood (
37、1996) 的研究证明,对于栅格数据自相关的计算,莫兰指数的计算公式可以简化为:数字高程模型及其地学分析的原理与应用 314 (9.3)niminimj jixI121)()(根据以上原理,选取黄土高原沟壑区 1:1 万 DEM,利用邻域统计法,分别以 55、1313、2525 的窗口提取正负地形,并计算其自相关系数。计算结果如图 9.9,可见正负地形空间布局的空间自相关程度随着图形综合程度的增大而增大。55, I0.38401313, I0.39433正地形负地形0 10 20Metrs1 2 km0b第九章 DEM 的地形统计分析 315 2525, I0.49697图 9.9 正负地形空
38、间自相关程度的变化3半变异函数和协方差函数在地统计学中用半变异函数和协方差函数来描述自相关,它们把相关系数的大小表示为距离的函数,其目的是检测数据的空间变异结构。在应用半变异函数和协方差函数时有两个假设前提:一是假设邻近事物比相隔远的事物会更加相似,二是邻近事物的相似性只与它们之间的距离有关而与它们所处的位置无关,即符合二阶平稳假设。如图 9.10,A、B 、a、b 四点位于研究区的不同位置,但距离 DABD ab,且方向相同,那么相似系数 (A 、B ) (a、b) 。ABa0 图 9.10 二阶平稳假设示意图半变异函数定义为:(9.4)()(var21),( jiji sZsZs 其中 v
39、ar 是变异系数。如果两点之间按量测距离 D( Si,S j)计算彼此很接近,就断定两者是相似的,它们的数值之间的差异 Z(S i )Z( Sj)就较小。反之,它们的相似性就数字高程模型及其地学分析的原理与应用 316 降低,它们之间数值差异 Z(S i )Z( Sj)就增大。如图 9.11 所示。图 9.11 半变异函数示意图协方差函数定义为:(9.5)()(cov),( jiji sZsZsC其中 cov 是协方差。协方差是对相关系数按一定比例的表现形式。因此,当两点 Si 与 Sj 彼此距离很接近时,可判断它们是相似的,因此它们的协方差就比较大。当 Si 与 Sj 之间的距离扩大时,它们
40、的相似性降低,协方差也减小直至变为 0(图 9.12) 。图 9.12 协方差函数示意图9.4.2 地形因子相关分析地形因子是最基本的地貌要素,不同的地形因子从不同方面反映地面的起伏第九章 DEM 的地形统计分析 317 特征或空间变异,各因子之间所存在的相互关联、相互制约、相互影响的特性,直接表征着地表物质的移动与能量的转换,反映着地表基本环境格局的内在形成机理与发展态势。目前在 DEM 分析中应用到的相关分析主要包括两个地形因子之间相关程度的确定和多个地形因子间相关程度的测定,后者又包括偏相关和复相关两种。1. 单相关研究两个地形因子的相关关系称为单相关,用相关系数来表达相关关系的性质和紧
41、密程度。相关系数由下式计算:(9.6) niiniiinii yxyxyr12121 )()( )()(相关系数的显著性检验是通过查相关系数表的临界值来完成。如表 9.8,是某地 12 个丘陵的高程和平均坡度值:表 9.8 12 个丘陵样区的高程(m)和平均坡度(据黄镇国,1989)x(高程) 236 237 232 225 210 217 215 205 200 203 180 190y(平均坡度) 24 25 24.5 22 21.2 21.5 21 20.6 20.5 19.6 19 18.5根据 9.6 式计算 r0.944,查相关系数检验表可知在 99的置信度上,结果是可信的,即该丘
42、陵地区的高程与坡度有很好的正相关关系。另外,还常常用散点图来体现两个因子之间的关系。把表 9.8 以图 9.13 表达后可以直观地看出该地区丘陵的高程与坡度具有较好的线性相关性。181920212223242526180 190 200 210 220 230 240 250图 9.13 12 个丘陵的高程(m)和平均坡度的散点图2. 偏相关高程平均坡度数字高程模型及其地学分析的原理与应用 318 因为地形的复杂性,在地形分析中要研究的常常不止两个因子,而是对多个因子的综合分析。一般地,当研究某一个因子对另一个因子的影响或相关程度时,把其他因子的影响视为常数(保持不变) ,即暂时不考虑其他因子
43、的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。偏相关的程度用偏相关系数来度量,偏相关系数的显著性检验,一般采用 t 检验法。例如对陕北甘泉的一幅 1:1 万 DEM 提取坡度、平面曲率、剖面曲率、高程极差和高程曲线积分值与地面起伏度等因子,然后随机采取 30 个 22km2 的样本,并分别统计该样本范围内的坡度、平面曲率、剖面曲率、高程极差和地面起伏度的平均值以及高程曲线积分值,为了消除量纲的影响,对这些统计值分别进行归一化处理得到表 9.9 的结果。利用回归方法计算各个自变量与起伏度因子的偏回归系数 、345612、 、 和 (其中 1、2、3、4、5、6 分别代表地面起
44、245613563213462134521伏度、坡度、平面曲率、剖面曲率、高程极差和高程曲线积分值, 的含345612义是 3、4、5、6 号自变量保持不变时,2 号自变量变化一个单位而使因变量平均变化的数值) ;同时以起伏度因子为自变量,计算它与另外五个因子的偏回归系数 、 、 、 和 ,最后,由公式1245631563213462134521计算自变量 2 相对与因变量的偏相关系数,公式的正3456r负号与偏回归系数的一致,其它因子由此类推,得出各因子相对于起伏度因子的偏相关系数如表 9.10。 表 9.9 地形因子归一化处理结果表平均坡度 平均剖面曲率 平均平面曲率 高程极差 高程曲线积
45、分 平均地面起伏度1 0.6347 0.511 0.6396 0.3685 0.5255 0.6042 0.6533 1 0 0.2697 1 0.67663 0.7336 0.502 0.5675 0.785 0.6073 0.68694 0.7881 0.1892 0.776 0.6237 0.3875 0.75025 0.7205 0.5079 0.5541 0.6439 0.5888 0.70886 0.7137 0.2358 0.7885 0.5055 0.4283 0.67867 0.6101 0.0083 1 0.2857 0.3969 0.5728 0.5857 0.6983
46、0.5407 0.3999 0.5254 0.46469 0.6779 0.803 0.1427 0.5283 0.6167 0.624510 0.4117 0.1999 0.8338 0.9202 0.457 0.294511 0.6024 0.5374 0.4235 0.6841 0.6464 0.519912 0 0.3546 0.9059 0.4245 0 013 0.6938 0 0.7961 0.618 0.3244 0.668914 0.7228 0.967 0.0876 0.3321 0.8183 0.74115 0.4089 0.3484 0.8851 0.324 0.534
47、5 0.380516 0.7201 0.6427 0.4356 0.4066 0.6676 0.6576第九章 DEM 的地形统计分析 319 17 0.7332 0.5579 0.5135 0.5884 0.9653 0.700818 0.6163 0.2196 0.9376 0.587 0.2713 0.582119 0.7296 0.8999 0.3918 0.5703 0.7643 0.699720 0.611 0.3242 0.5829 0.9099 0.422 0.596121 0.7513 0.6025 0.5221 0 0.8214 0.682722 0.681 0.6951
48、0.4189 1 0.4434 0.61423 0.5233 0.7071 0.3491 0.4681 0.685 0.467124 0.2298 0.7148 0.3603 0.7031 0.5942 0.201225 0.8594 0.3886 0.7669 0.5429 0.4359 0.850326 0.7028 0.446 0.4422 0.1511 0.6845 0.606527 1 0.2606 0.7843 0.9584 0.3674 128 0.6465 0.7285 0.3149 0.2052 0.8499 0.598229 0.5789 0.5808 0.5375 0.3
49、178 0.4095 0.505530 0.8177 0.4767 0.7118 0.873 0.6137 0.8028表 9.10 偏相关系数表坡度 剖面曲率 平面曲率 高程极差 高程曲线积分地面起伏度 0.983637725 0.019201 0.121005 0.120772 0.318014021结果显示坡度与地面起伏度呈现明显的正相关,即坡度值越大对应着地面起伏度的值也越大。3. 复相关实际上,一个因子的变化往往受多种要素的综合作用和影响,而单相关或偏相关分析的方法都不能反映各要素的综合影响,所以就必须用复相关的分析法来解释几个因子与某一个因子之间的复相关程度。复相关程度用复相关系数来度量,复相关系数介于 0 到 1 之间,复相关系数越接近于 1,则