1、Lecture 4 空间自相关,数学基础,相关分析,正态分布 空间自相关,1、描述地理数据分布离散程度的指标,极差指所有数据中最大值与最小值之差,计算公式为离差指每一个地理数据与平均值的差,计算公式为离差平方和它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为,方差与标准差方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为标准差为方差的平方根,计算公式为,2、地理相关的意义,相关与地理相关 相关是指两个或两个以上变数间相互关系是否密切。在研究这种关系时并不专指哪一个是自变量,哪一个是因变量,而视实际需要确定。相关分析仅限于测定两个或两个以上变数具有相关关系者,其主要目的
2、是计算出表示两个或两个以上变数间的相关程度和性质 地理相关,就是应用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标 地理要素之间的相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系的密切程度的测定,主要是通过对相关系数的计算与检验来完成的,3、地理相关程度的度量方法,简单直线相关程度的度量 相关程度 研究两个地理要素之间的相互关系是否密切 相关方向 正相关:y值随x的增加而变大或随x的减少而变小 负相关:y值随x的增加而变小或随x的减少而增大,相关系数(correlation coefficient),Covariance,相关系数(correlati
3、on coefficient) 样本相关系数的计算公式为,相关系数(correlation coefficient),rxy为要素x与y之间的相关系数,它就是表示该两要素之间相关程度的统计指标,其值在-1,1区间之内 rxy0,表示正相关,即两要素同向发展 rxy0,表示负相关,即两要素异向发展 rxy 的绝对值越接近于1,表示两要素的关系越密切; 越接近于0,表示两要素的关系越不密切,举例,北京市多年各月平均气温与5cm深的平均地温,如表所示,请计算两者的相关系数,用导出公式,相关系数计算表,正态分布,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的
4、情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质 ,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等,正态分布,正态分布normal distribution一种概率分布。正态分布是具有两个参数和2的连续型随机变量的分布 第一参数是服从正态分布的随机
5、变量的均值, 第二个参数2是此随机变量的方差,所以正态分布记作N(,2 )。 服从正态分布的随机变量的概率规律为: 取 邻近的值的概率大 ,而取离越远的值的概率越小; 越小,分布越集中在附近,越大,分布越分散。,空间统计学,空间自相关是指空间位置上越靠近事物或现象就越相似,即事物或现象具有空间位置的依赖关系。如气温、湿度等的空间分布体现了与海陆距离、海拔高程的相关性。如果没有空间自相关性,地理事物和现象的分布将是随意的,地理学中的空间分布规律就不能体现。 空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征,因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关
6、性的地理现象,需要对传统的统计学方法进行改进和发展,空间统计学就应运而生了。,空间自相关有三种:,正自相关:是指附近的观测值很可能是彼此相似的 负自相关:是指附近的观测值很可能是彼此不同的,较少见 零自相关:是指无法辨别空间效应,观测值在空间上似乎是随机分布的,空间自相关分析,自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。空间自相关分析需要的空间数据是点或面数据,分析的对象是具有点/面分布特性的特定属性。 全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。 局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性,例子,测度不同时段少数民族的分化这
7、种分化的趋势是在扩大还是在减小。 总结疾病或趋势在空间和时间上的扩散也就是说疾病趋势是保持集中在一些地区还是扩散到很多地区 。 比较一个城市内不同犯罪类型的分布模式 比较一个城市内不同时段的人口集中程度,Morans I 统计量,morans I 统计量度量空间自相关(要素属性相近程度)的程度,它的计算不但考虑要素的属性值而且还包括要素之间的距离。给定一系列的要素和相应的属性值,它评估要素的分布是否使集聚分布,离散分布还是随机分布。Morans指数接近1表示集聚,接近1表示离散,全局Moran 统计量公式:,局部Moran指数被定义为:可进一步写成式中: 和 是经过标准差标准化的观测值。局部M
8、oran指数检验的标准化统计量为,Morans I 公式的由来:,方差,协方差,Morans I 公式的由来:,Morans I 公式的由来:,Morans指数接近1表示集聚,接近1表示离散。可以计算出相应的Z值来评价观测的集聚或离散是否统计显著,G统计量-高/低 集中趋势,G统计量,全局G统计量的计算公式为对每一个区域单元的统计量为,对G统计量的检验与局部Moran指数相似,其检验值为 显著的正值表示在该区域单元周围,高观测值的区域单元趋于空间集聚,而显著的负值表示低观测值的区域单元趋于空间集聚,与Moran指数只能发现相似值(正关联)或非相似性观测值(负关联)的空间集聚模式相比,具有能够探
9、测出区域单元属于高值集聚还是低值集聚的空间分布模式。,G统计量-高/低 集中趋势,Getis-Ord General指数(高/低变化工具)度量对整体区域的高低值的集中度。 例1:可以用这个统计工具去比较一个城市内不同犯罪类型的分布模式,这样我们就能够看出该地区是犯罪比较集中(热点地区多),还是犯罪很分散。计算得出很高的值说明在研究区域高于平均值的区域比较聚集。较低的值说明低于平均值的区域趋向聚集。可以计算得出该区域的标准化z值使我们能看出高、低值是否具有统计显著性。 例2:比较总结空间现象在不同地方和不同时段的聚集程度。典型的有城市和城市人口集中。用高/低值聚集分析,你能够比较西方城市与东方城
10、市的集聚水平(城市形态学),或者在一个城市内不同时段的人口集中程度的比较(城市增长和密度分析),ArcGIS 空间统计工具箱,空间统计工具箱是为那些需要使用高级的方法来解决其空间分析问题的gis用户设计的。 空间统计主要的工作是研究空间自相关性(Spatial Autocorrelation),分析空间分布的模式,例如聚类(cluster)或离散(dispersed)。通过使用ArcGIS 9中的空间统计工具,用户可以以一种非常直观而简单的方式获得这些信息。 ArcGIS 9中的空间统计工具箱包括了一系列工具,用来分析地理要素的空间分布形态。传统的统计并不考虑地理要素的空间关系,而在空间统计中
11、,要素的空间关系是分析中需要考虑的必要的,处于绝对重要地位的因素。,1、nearest Neighbor Analysis,1、nearest Neighbor Analysis,1、nearest Neighbor Analysis,The ratio is less than 1 if the point pattern is more cluster than random, and greater than 1 if the point pattern is more dispersed than random. The z-score indicates the likelihood
12、 that the pattern could be a result of random chance.,The observed average distance between nearest neighbors,The expected average for a hypothetical random distribution,Global Morans I: Morans指数越接近1表示越集聚,接近1表示离散,z-score indicate the likelihood be a result of random chance,如果 z score为正且大于 1.96,则分布为聚
13、集的。如果 z score为负且小于-1.96,分布为离散的,General G Index:返回 General G Index值和 Z Score值。G Index值越高,越趋向于高聚类,反为低聚类。Z值为正且越大,要素分布趋向高聚类分布。相反为低聚类分布,Local Moran I,A high positive z score suggests that the feature is adjacent to features of similar values A high negative z score indicates that the feature is adjacent to features of dissimilar values 如果索引值I为正,则要素值与其相邻的要素值相近,如果索引I值为负值,则与相邻要素值有很大的不同,Local G statistic,The high positive z score indicate the presence of a cluster of high values or a hot spot The negative z scores, on the other hands suggests the presence of a cluster of low values or a cold spot,