1、实习序号和题目 空间分布模式与空间相关分析实习人 专业及编号实习目的: 熟悉和掌握 Spatial Statistics Tools 里的基本工具,对所给数据进行空间分析。实习内容:1.参考文献多尺度人口增长的空间统计分析 ,练习多距离 L(d)、全局MoranI 与 G*统计量分析,显著性检验的置信区间定义为 90%;2.对 adabg00 数据进行全局与局部的 moran I 与 G 统计量分析;3.对 deer 数据进行基于距离的最近邻分析与 L(d)分析;实习数据:1.省区.shp:中国各省分布图2.各省第 5 次和第 6 次人口普查:各省人口普查数据deer.shp:鹿场点分布图3.
2、adabg00.shp:爱达荷州阿达各街区 2000 年人口普查数据基本原理:空间分布的模式一般来说,有三种,分别是离散、随机、和聚合。离散的概念就是指观测的每个数据之间的差异程度,离散程度越大,差异性就越大。聚合与离散正好相反,表示在一定区域内的相关程度,就是聚合程度越大,相关性就越大。随机是纯粹的无模式,既不能从随机数据中获取结论,也发现不了规律和模式。1.零假设(null hypothesis):指进行统计检验时预先建立的假设。在空间统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分布。在检验结果之前,先对这些结果假设一个数值区间,这个区间一般是符合某种概率分布的情况,如
3、果真实结果偏离了设定的区间,就表示发生了小概率事件。这样原来的假设就不成立了。如果计算结果落在-2 到 2 之间,就表示假设是可以接受,但是不在这个范围内,就说明发生小概率事件了。有两种可能:1,假设有错误;2,出现了异常值。2.z 得分(Z scores)表示标准差的倍数标准差:总体各单位标准值与其平均数离差平方的算术平均数的平方根”也就是“标准差能反映一个数据集的离散程度” 。比如 z 得分是+2.5,得到的结果是标准差的正 2.5 倍,表示数据已经高度聚集。反之,如果是-2.5,那么就表示标准差的负 2.5 倍,就是高度离散的数据。置信度:数据落在期望区间的可能性在统计学中,一个概率样本
4、的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。这个概率被称为置信水平。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。3.在空间统计分析中,通过相关分析可以检测两种现象(统计量)的变化是否存在相关性,若所分析的统计量为不同观察对象的同一属性变量,则称之为自相关。而空间自相关反映的是一个区域单元上的某种地理现象或某一属性值与邻近区域单元上同一现
5、象或属性值的相关程度,是一种检测与量化从多个标定点中取样值变异的空间依赖性的空间统计方法。当变量在空间上表现出一定的规律性,即不是随机分布则存在着空间自相关,空间自相关理论认为彼此之间距离越近的事物越相像。也就是说,空间自相关是针对同一个属性变量而言的。4.空间自相关方法按功能大致分为两类:全域型自相关和区域型自相关。全域型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间是否有聚集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不同空间间隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,用于分析该现象在空间上是否有阶层性分布。区域型自相关能够推算出聚集地的范围。 5
6、.最近邻分析是根据每个要素与其最近邻要素之间的平均距离计算其最近邻指数。最近邻指数是平均观测距离和平均期望距离之比。如果小于,则要素呈现空间聚集式;如果大于,则要素呈现空间离散模式或竞争模式。最近邻分析并没有考虑到属性特征,只是根据空间位置。6.Morans I 法 高的自相关性代表了空间现象聚集性的存在,空间自相关分析的主要功能在于同时可以处理数据的区位和属性。全域型 Morans I 计算方式是基于统计学相关系数的协方差关系推算出来的。I 值一定介于-1 到 1 之间,大于 0 为正相关,且值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明显,反之,值越小代表空间分布相关性小,而当
7、值趋于 0 时,代表此时空间分布呈现随机分布的情形。 若 I 值大于 0,说明相邻地区拥有相似的数据属性,属性值高或低的地区都有聚集现象;若 I 小于 0,说明相邻地区属性差异大,数据空间分布呈现高地间隔分布的状态;若 I 趋近于 0,则相邻空间单元间相关低,某空间现象的高值或低值呈无规律的随机分布状态。若 I 值显著大于 I 的期望值(I 值为正值且显著) ,说明两点存在相似关系,若 I 值显著小于 I 的期望值(I 值为负值且显著) ,说明两点存在不相似关系。 区域空间自相关值累加之和即全域空间自相关 Morans I 值。 其对应的公式为:7. 多距离空间聚类分析 (Ripleys K
8、函数)Ripleys K 方法是一种点数据模式的分析方法,利用 Ripleys K 函数对点数据集进行不同距离的聚类程度分析。Ripleys K 函数就是用来表明要素的质心的空间聚集或空间扩散的程度,以及在邻域大小发生变化时是如何变化的。原理:设定一个起算距离,还可以指定最终距离或者增量步长。计算的距离增加的时候,包含的相邻的要素自然就会原来越多,那么就可以针对不同的距离,去计算包含的数据的密度。当全部算完之后,把每个距离的密度进行一下算数平均,并且用这个平均密度,作为用于比较的标准密度值。然后用每个距离里面,包含的数据量的密度,来与标准密度值进行比较。大于标准密度,那么我们就认为这个距离上,
9、数据处于聚类分布,而小于标准值的,我们就认为他处于离散分布。为了避免平均数带来的一些简单粗暴的计算,在研究空间分布的时候,更多是利用零假设的方式,来设定随机数进行分布,作为预期值。特定距离的 K 观测值大于 K 预期值,则与该距离(分析尺度)的随机分布相比,该分布的聚类程度更高。如果 K 观测值小于 K 预期值,则与该距离的随机分布相比,该分布的离散程度更高多距离空间聚类分析工具返回的值以及含义如下:应用到的基本工具1.ArcToolboxSpatial Statistics ToolsAverage Patterns(分析模式)Average Nearest Neighbor(平均最近邻)
10、2.ArcToolboxSpatial Statistics Tools Average PatternsHigh/ Low Clustering (Getis- OrdGeneral G) 3.ArcToolboxSpatial Statistics ToolsAverage Patterns, Spatial Autocorrelation (Moran I) 4.ArcToolbox Spatial Statistics Tools Average PatternsMulti-Distance Spatial Cluster Analysis (Ripleys K Function) 5
11、. ArcToolbox Spatial Statistics Tools Mapping Clusters Cluster and Outlier Analysis(Anselin Local Morans I) 6. ArcToolbox Spatial Statistics Tools Mapping Clusters Hot Spot Analysis (Getis-Ord Gi*)操作流程图(尽量为图解模型)操作步骤(方法)一、参考文献多尺度人口增长的空间统计分析,练习多距离 L(d)、全局MoranI 与 G*统计量分析,显著性检验的置信区间定义为 90%定义工作空间,对 prov
12、ince 数据添加投影,选择兰勃特投影处理数据,将统计数据汇总连接到省区的 shp 文件;空间分析deer 数据adabg00 数据Province 数据L(d)统计全局 MoranIG*统计量分析全局 MoranIG 统计量分析局部 moran IL(d)分析最近邻分析右键点击“province” ,采用 Symbology/Quantities/Graduated colors 来符号化“人口增长率”字段;观察分布格局;分布格局为:西部部分地区的人口增长率要明显高于东部,如青海,西藏,新疆。北方地区主要是京津地区增长率较高,南方的上海和广东地区人口增长率高。由此可知,人口增长率最高的地方主
13、要是发达的地区和贫困地区。发达地区由于人口迁入导致,而贫困地区是由于出生率高于死亡率导致。提取质心点,求取点对之间的距离;k(d)函数先利用 province 计算点距离,最短为 30734 米,最长为 2216312 米则步长为十, Beginning_Distance (起算距离)选择 30000 米,Distance_Increment (递增步长)选择 220000 米红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系当观察值处于期望值之下的时候是离散分布。Global MoranI分析:通过 Morans I 指数判断可以判断人口增长率是否存在集聚。Morans I
14、ndex:0.202915 大于 0,是观测的 Morans 指数,表示要素呈现空间正相关。 Expected Index-0.030303 小于 0,是期望的 Morans 指数,表示按期望应该是空间负相关。 Variance:0.011789,方差很小接近于 0 表示统计值之间差异并不大。 z-score:2.147959,绝对值小于 2.58 对应显著性水平,表示正相关不是非常显著。 p-value:0.031717 小于 0.1,表示随机分布的可能性小于 10%,相关的可能性大于 90%。二、对 adabg00 数据进行全局与局部的 moran I 与 G 统计量分析;拉丁人口分布:进
15、行 G 统计量分析利用 Getis-Ord General G 统计量度量高值或低值的聚集程度。 打 开 ArcToolboxSpatial Statistics ToolsAverage PatternsHigh/Low Clustering (Getis-Ord General G)输入图层选择 adabg00.shp,统计的字段是 Latino 字段。勾选 Generate Report 选项。空间关系选择 Inverse Distance(反距离),选项还有反距离平方等。计算距离方法选择欧式距离。是否进行标准化选择默认 NONE。点击 OK。结果显示:分析:阿达县的拉丁裔人口分布具有空
16、间集聚特征,且是高密度人口和高密度人口聚集。 Expected General G:0.000172,表示期望的 G 统计量。 Variance:0.000000,方差很小接近于 0 表示统计值之间差异很小。 z-score:3.770902,绝对值大于 2.58 对应显著性水平,表示聚集非常显著。 p-value:0.000163 小于 0.1,表示随机分布的可能性小于 10%,聚集分布的可能性大于 90%,即聚集显著。全局 moran I利用全局 Morans I 统计量根据要素位置和属性值测量空间自相关性。 打开 ArcToolbox, Spatial Statistics Tools,
17、 Average Patterns(分析式), Spatial Autocorrelation (Moran I)输入图层选择 adabg00.shp,统计的字段是 Latino 字段。勾选 Generate Report 选项。空间关系选择 Inverse Distance(反距离),计算距离方法选择欧式距离。是否进行标准化选择默认 NONE。点击 OK。分析:阿达县的拉丁裔人口分布具有空间集聚特征,但通过 Morans I 指数无法判断是高密度人口和高密度人口聚集还是低密度人口和低密度人口聚集。 Morans Index:0.053588 大于 0,是观测的 Morans 指数,表示要素呈
18、现空间正相关。 Expected Index-0.006849 小于 0,是期望的 Morans 指数,表示按期望应该是空间负相关。 Variance:0.000096,方差很小接近于 0 表示统计值之间差异并不大。 z-score:6.164895,绝对值大于 2.58 对应显著性水平,表示正相关非常显著。p-value:0.000000 小于 0.01,表示随机分布的可能性小于 1%,相关的可能性大于 99%。局部的 moran ICluster and Outlier Analysis (Anselin Local Morans I) 该工具是局部 Moran I 算法的实现,可以反映要
19、素与周边要素的相似程度 打开 ArcToolbox, Spatial Statistics Tools, Mapping Clusters, Cluster and Outlier Analysis(Anselin Local Morans I)。输入图层选择 adabg00.shp,统计的字段是 Latino 字段。空间关系选择 Inverse Distance(反距离),计算距离方法选择欧式距离。是否进行标准化选择默认 NONE。点击 OK。打开生成的新图层。该新图层有 147 条记录,8 个字段,若 Local Morans I index 为正,说明该点与邻域内点相似,若为负,说明该点
20、与邻域内点相异。COType_IDW 有 4 种结果: HH,HL,LL,LH(HH 代表高高值聚集,LL 代表低低值聚集,HL 代表高值被低值包围,LH 代表低值被高值包围)。检测该县拉丁裔人口是否存在局部“热点”该工具是局部 G 指数的实现,可以反映高值或低值在空间上的聚集区域。也就是我们常说的热点分析,可用来生成热点图。输入图层选择 adabg00.shp,统计的字段是 Latino。空间关系选择 FIXED_DISTANCE_BAND,计算距离方法选择欧式距离。是否进行标准化选择默认 NONE。点击 OK。打开生成的新图层。该新图层有 147 条记录,6 个字段,在属性表中添加 Z 分
21、数和 P 值两个字段。如果 Z 值越大且 P 值越小,说明为热点区域(即高高值的聚集区域);如果 Z 值很小(为负)且 P 值很小,说明为冷点区域(即低低值的聚集区域)。标准差越小聚集度越高(是热点或冷点的可能性就越大)。阿达县的拉丁裔人口分布存在局部的 “热点”。三、对 deer 数据进行基于距离的最近邻分析与 L(d)分析;统计检验的置信区间设定为 90%。(1)Average Nearest Neighbor Summary(最近邻统计)信息 z-score:-10.955129,绝对值大于 2.58 对应显著性水平,在这里表示聚集非常显著。 p-value:0 小于 0.01,表示随机
22、分布的可能性小于 1%,非随机分布的可能性大于 99%,在这里表示聚集非常显著。 Observed Mean Distance:25.313385 Meters,表示观测平均距离值。 Expected Mean Distance:41.983181 Meters,表示期望平均距离值。 Nearest Neighbor Ratio(最近邻指数):0.602491,表示观测平均距离值与期望平均距离的比值。结果与分析一、“人口增长率”分布格局为:西部部分地区的人口增长率要明显高于东部,如青海,西藏,新疆。北方地区主要是京津地区增长率较高,南方的上海和广东地区人口增长率高。由此可知,人口增长率最高的地
23、方主要是发达的地区和贫困地区。发达地区由于人口迁入导致,而贫困地区是由于出生率高于死亡率导致。k(d)函数红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系当观察值处于期望值之下的时候是离散分布。Global MoranI分析:通过 Morans I 指数判断可以判断人口增长率是否存在集聚。Morans Index:0.202915 大于 0,是观测的 Morans 指数,表示要素呈现空间正相关。 Expected Index-0.030303 小于 0,是期望的 Morans 指数,表示按期望应该是空间负相关。 Variance:0.011789,方差很小接近于 0 表示统
24、计值之间差异并不大。 z-score:2.147959,绝对值小于 2.58 对应显著性水平,表示正相关不是非常显著。 p-value:0.031717 小于 0.1,表示随机分布的可能性小于 10%,相关的可能性大于 90%。二、对 adabg00 数据进行全局与局部的 moran I 与 G 统计量分析,需要判断阿达县的拉丁裔人口分布是否具有空间集聚以及存在局部的 “热点”; 进行 G 统计量分析:阿达县的拉丁裔人口分布具有空间集聚特征,且是高密度人口和高密度人口聚集。 Expected General G:0.000172,表示期望的 G 统计量。 Variance:0.000000,方
25、差很小接近于 0 表示统计值之间差异很小。 z-score:3.770902,绝对值大于 2.58 对应显著性水平,表示聚集非常显著。 p-value:0.000163 小于 0.01,表示随机分布的可能性小于 1%,聚集分布的可能性大于 99%,即聚集非常显著。全局 moran I利用全局 Morans I 统计量根据要素位置和属性值测量空间自相关性。 分析:阿达县的拉丁裔人口分布具有空间集聚特征,但通过 Morans I 指数无法判断是高密度人口和高密度人口聚集还是低密度人口和低密度人口聚集。 Morans Index:0.053588 大于 0,是观测的 Morans 指数,表示要素呈现
26、空间正相关。 Expected Index-0.006849 小于 0,是期望的 Morans 指数,表示按期望应该是空间负相关。 Variance:0.000096,方差很小接近于 0 表示统计值之间差异并不大。 z-score:6.164895,绝对值大于 2.58 对应显著性水平,表示正相关非常显著。p-value:0.000000 小于 0.01,表示随机分布的可能性小于 1%,相关的可能性大于 99%。局部的 moran ICluster and Outlier Analysis (Anselin Local Morans I) 打开生成的新图层。该新图层有 147 条记录,8 个字
27、段,若 Local Morans I index 为正,说明该点与邻域内点相似,若为负,说明该点与邻域内点相异。COType_IDW 有 4 种结果: HH,HL,LL,LH(HH 代表高高值聚集,LL 代表低低值聚集,HL 代表高值被低值包围,LH 代表低值被高值包围)。检测该县拉丁裔人口是否存在局部“热点”该工具是局部 G 指数的实现,可以反映高值或低值在空间上的聚集区域。也就是我们常说的热点分析,可用来生成热点图。打开生成的新图层。该新图层有 147 条记录,6 个字段,在属性表中添加 Z 分数和 P 值两个字段。如果 Z 值越大且 P 值越小,说明为热点区域(即高高值的聚集区域);如果
28、 Z 值很小(为负)且 P 值很小,说明为冷点区域(即低低值的聚集区域)。标准差越小聚集度越高(是热点或冷点的可能性就越大)。阿达县的拉丁裔人口分布存在局部的 “热点”。三、对 deer 数据进行基于距离的最近邻分析与 L(d)分析;统计检验的置信区间设定为 90%。(1)Average Nearest Neighbor Summary(最近邻统计)信息 z-score:-10.955129,绝对值大于 2.58 对应显著性水平,在这里表示聚集非常显著。 p-value:0 小于 0.01,表示随机分布的可能性小于 1%,非随机分布的可能性大于 99%,在这里表示聚集非常显著。 Observe
29、d Mean Distance:25.313385 Meters,表示观测平均距离值。 Expected Mean Distance:41.983181 Meters,表示期望平均距离值。 Nearest Neighbor Ratio(最近邻指数):0.602491,表示观测平均距离值与期望平均距离的比值。存在问题与解决办法1.利用 k(d)函数计算 province 点距离的时候,权重字段选择人口增长率的时候,会出现操作失败,当不选择权重字段的时候可以实现。当不选择权重字段的时候,是没有权重还是说有默认的权重,如果是用默认的权重,那么默认的权重是什么呢?解决办法:通过将 province 导
30、出后生成新的一个文件重新进行操作,可以实现。关于是否有默认的权重,不是很清楚,需要咨询老师。2.红线是观察值,蓝线是期望值,当观察值在期望值上面的时候,是有集聚关系当观察值处于期望值之下的时候是离散分布。通过右侧这个表还可以发现什么信息,灰色的两条线是什么?该如何准确表达右图的信息?3.希望老师能给讲解一个样本:例如如下的表的信息如何读取,能得到那些规律?需要注意问题的总结与归纳对得到的数据要有效的利用,通过查阅资料明白其中的有效数据,例如通过 Morans I 指数判断可以判断人口增长率是否存在集聚。Morans Index是观测的 Morans 指数,如果大于 0,表示要素呈现空间正相关。
31、 Expected Index 是期望的 Morans 指数,如果小于 0,表示按期望应该是空间负相关。 全域型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间是否有聚集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不同空间间隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,用于分析该现象在空间上是否有阶层性分布。区域型自相关能够推算出聚集地的范围。对阿达县的拉丁裔人口分布进行全局域自相关的操作,发现具有空间集聚以及存在局部的 “热点”,通过区域型自相关找到了热点区域。最近邻指数是平均观测距离和平均期望距离之比。如果小于,则要素呈现空间聚集式;如果大于,则要素呈现
32、空间离散模式或竞争模式。对 deer 数据进行基于距离的最近邻分析可知存在空间聚集。全域型 Morans I 计算方式是基于统计学相关系数的协方差关系推算出来的。I 值一定介于-1 到 1 之间,大于 0 为正相关,且值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明显,反之,值越小代表空间分布相关性小,而当值趋于 0 时,代表此时空间分布呈现随机分布的情形。 若 I 值大于 0,说明相邻地区拥有相似的数据属性,属性值高或低的地区都有聚集现象;若 I 小于 0,说明相邻地区属性差异大,数据空间分布呈现高地间隔分布的状态;若 I 趋近于 0,则相邻空间单元间相关低,某空间现象的高值或低值
33、呈无规律的随机分布状态。若 I 值显著大于 I 的期望值(I 值为正值且显著) ,说明两点存在相似关系,若 I 值显著小于 I 的期望值(I 值为负值且显著) ,说明两点存在不相似关系。对阿达县的拉丁裔人口分布进行全局域自相关的操作,发现具有空间集聚以及存在局部的 “热点”。利用 Ripleys K 函数对全国人口增长率数据进行不同距离的聚类程度分析。Ripleys K 函数就是用来表明要素的质心的空间聚集或空间扩散的程度,以及在邻域大小发生变化时是如何变化的。特定距离的 K 观测值大于 K 预期值,则与该距离(分析尺度)的随机分布相比,该分布的聚类程度更高。如果 K 观测值小于 K 预期值,则与该距离的随机分布相比,该分布的离散程度更高。以下为得到的全国人口增长率的 K(d)函数结果:个人体会其他软件的解决办法(软件名称,解决思路及相应工具):使用者可以适当加分